不再显示

大语言模型服务可靠、可扩展、高性价比

使用 API 快速构建生成式AI应用

帮助文档申请优惠

模型列表

提供行业领先、市场已充分验证的模型列表，帮您出色的完成AI应用建设。

这些模型普遍在角色扮演、故事扩写、代码生成、情感陪伴等领域具备高智商和高情商的表现。

全新上线

meta-llama/llama-4-maverick-17b-128e-instruct-fp8

大语言

企业认证专属

Llama 4 Maverick 17B Instruct (128E) 是 Meta 基于混合专家（MoE）架构开发的高性能多模态语言模型，每次推理动态激活 170 亿参数（总参数量达 4000 亿），集成 128 个专家模块。该模型支持 12 种语言的文本/图像输入及文本/代码输出，专为视觉-语言任务优化，通过指令微调实现类助手交互、图像推理和通用多模态应用。采用早期融合技术实现原生多模态处理，具备 100 万 token 的上下文窗口，训练数据融合公开资源、授权内容及 Meta 平台数据（总量约 22 万亿 token），知识截止于 2024 年 8 月。2025 年 4 月 5 日以 Llama 4 社区许可证发布，适用于需要先进多模态理解和高吞吐量的研究及商业场景。

1048576上下文窗口

输入￥1.45/百万 tokens

输出￥6.2/百万 tokens

支持能力:Function Calling

全新上线

meta-llama/llama-4-scout-17b-16e-instruct

大语言

企业认证专属

Llama 4 Scout 17B Instruct (16E) 是由 Meta 开发的混合专家（MoE）语言模型，从 1090 亿总参数中动态激活 170 亿参数，支持文本和图像的多模态输入，并能以 12 种语言输出文本和代码。该模型专为智能助手交互和视觉推理设计，每次推理调用 16 个专家模块，具备 1000 万 token 的超长上下文窗口，训练数据规模达 40 万亿 token。通过早期融合技术实现跨模态无缝集成，适用于多语言对话、图像描述和视觉理解等任务，采用 Llama 4 社区许可证，训练数据更新至 2024 年 8 月，并于 2025 年 4 月 5 日正式发布。

131072上下文窗口

输入￥0.725/百万 tokens

输出￥3.6/百万 tokens

支持能力:Function Calling

全新上线

deepseek/deepseek-v3-0324

大语言

NEW

DeepSeek V3 0324 是深度求索（DeepSeek）团队旗舰级对话模型系列的最新版本，采用混合专家（Mixture-of-Experts, MoE）架构，参数量达685B参数。

128000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

直降20%

deepseek/deepseek-r1-turbo

大语言

全参数

满血加速版

八折优惠

DeepSeek R1 (Turbo)是派欧算力云平台提供的最新高性能DeepSeek R1 模型。DeepSeek R1是DeepSeek团队发布的最新开源模型，具备非常强悍的推理性能，尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。

64000上下文窗口

输入￥3.2/百万 tokens

输出￥12.8/百万 tokens

支持能力:Function Calling

直降20%

deepseek/deepseek-v3-turbo

大语言

全参数

满血加速版

八折优惠

DeepSeek V3 (Turbo) 是派欧算力云平台提供的最新高性能DeepSeek V3 模型。DeepSeek-V3 在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一，并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。

64000上下文窗口

输入￥1.6/百万 tokens

输出￥6.4/百万 tokens

支持能力:Function Calling

deepseek/deepseek-v3/community

大语言

全参数

满血版

DeepSeek-V3在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一，并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。

64000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

deepseek/deepseek-r1

大语言

全参数

满血版

DeepSeek R1是DeepSeek团队发布的最新开源模型，具备非常强悍的推理性能，尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。

64000上下文窗口

输入￥4/百万 tokens

输出￥16/百万 tokens

支持能力:Function Calling

deepseek/deepseek-r1/community

大语言

全参数

满血版

DeepSeek R1是DeepSeek团队发布的最新开源模型，具备非常强悍的推理性能，尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。

64000上下文窗口

输入￥4/百万 tokens

输出￥16/百万 tokens

支持能力:Function Calling

deepseek/deepseek-v3

大语言

全参数

满血版

64000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

qwen/qwq-32b

大语言

上新

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，QwQ 具备思考和推理能力，能够在下游任务中实现显著增强的性能，尤其是在解决困难问题方面。QwQ-32B 是中型推理模型，能够在与最先进的推理模型（如 DeepSeek-R1、o1-mini）的对比中取得有竞争力的性能。

32768上下文窗口

输入￥1/百万 tokens

输出￥3.5/百万 tokens

支持能力:Function Calling

deepseek/deepseek-r1-distill-qwen-32b

大语言

DeepSeek R1 Distill Qwen 32B 是一种基于 Qwen 2.5 32B 的蒸馏大语言模型，通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini，取得了密集模型（dense models）的最新技术领先成果（state-of-the-art）。以下是一些基准测试的结果： AIME 2024 pass@1: 72.6 MATH-500 pass@1: 94.3 CodeForces Rating: 1691 该模型通过从 DeepSeek R1 的输出中进行微调，展现了与更大规模的前沿模型相当的竞争性能。

64000上下文窗口

输入￥2.18/百万 tokens

输出￥2.18/百万 tokens

支持能力:结构化输出

deepseek/deepseek-r1-distill-qwen-14b

大语言

DeepSeek R1 Distill Qwen 14B 是一种基于 Qwen 2.5 14B 的蒸馏大语言模型，通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini，取得了密集模型（dense models）的最新技术领先成果（state-of-the-art）。以下是一些基准测试的结果： AIME 2024 pass@1: 69.7 MATH-500 pass@1: 93.9 CodeForces Rating: 1481 该模型通过从 DeepSeek R1 的输出中进行微调，展现了与更大规模的前沿模型相当的竞争性能。

64000上下文窗口

输入￥1/百万 tokens

输出￥1/百万 tokens

支持能力:结构化输出

deepseek/deepseek-r1-distill-llama-70b

大语言

DeepSeek R1 Distill Llama 70B是基于Llama3.3 70B的大型语言模型，该模型利用DeepSeek R1输出的微调，实现了与大型前沿模型相当的竞争性能。

32000上下文窗口

输入￥5.8/百万 tokens

输出￥5.8/百万 tokens

支持能力:结构化输出

deepseek/deepseek-r1-distill-llama-8b

大语言

DeepSeek R1 Distill Llama 8B 是一种基于 Llama-3.1-8B-Instruct 的蒸馏大语言模型，通过使用 DeepSeek R1 的输出进行训练而得。

32000上下文窗口

输入￥0.3/百万 tokens

输出￥0.3/百万 tokens

支持能力:结构化输出

meta-llama/llama-3.3-70b-instruct

大语言

企业认证专属

Meta Llama 3.3 是一款多语言的大型语言模型（LLM），它是一种经过预训练和指令微调的生成模型，包含 700 亿参数（输入文本/输出文本）。Llama 3.3 的指令微调文本模型专为多语言对话场景优化，在常见行业基准测试中，其表现优于许多现有的开源和闭源聊天模型。支持的语言包括：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语

131072上下文窗口

输入￥2.8/百万 tokens

输出￥2.8/百万 tokens

支持能力:Function Calling

qwen/qwen-2.5-72b-instruct

大语言

Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持，覆盖超过 29 种语言，包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出（尤其是 JSON）方面都有显著提升。

32768上下文窗口

输入￥2.75/百万 tokens

输出￥2.88/百万 tokens

支持能力:结构化输出Function Calling

meta-llama/llama-3.2-3b-instruct

大语言

企业认证专属

Llama 3.2 3B 是一个拥有 30 亿参数的多语言大型语言模型，专为高级自然语言处理任务（如对话生成、推理和总结）而优化。该模型采用最新的 Transformer 架构，支持包括英语、西班牙语和印地语在内的八种语言，并可以适配其他语言。 Llama 3.2 3B 模型基于 9 万亿标记进行训练，在遵循指令、复杂推理和工具使用方面表现出色。其平衡的性能使其成为在多语言环境中需要文本生成的准确性和效率的应用场景的理想选择。

32768上下文窗口

输入￥0.216/百万 tokens

输出￥0.36/百万 tokens

支持能力:Function Calling

google/gemma-3-27b-it

大语言

NEW

企业认证专属

Gemma 3 27B 是基于Gemini 2.0架构打造的开源大语言模型，该模型支持32K tokens长上下文处理，具备跨文本、图像和短视频的多模态推理能力；通过原生140种语言理解与官方量化技术，可在降低50%显存占用的同时保持高精度输出；同时具备增强的数学计算、逻辑推理和对话功能（包括结构化输出）。

32000上下文窗口

输入￥1.46/百万 tokens

输出￥1.46/百万 tokens

支持能力:结构化输出

qwen/qwen2.5-vl-72b-instruct

大语言

NEW

Qwen2.5-VL 是 Qwen2.5 系列最新推出的视觉语言模型。该模型在多方面有显著提升：具备更强的视觉理解能力，能够识别常见物体、分析文本、图表和布局；作为视觉代理能够推理并动态指导工具使用；支持理解超过 1 小时的长视频并捕捉关键事件；能够通过生成边界框或点准确定位图像中的物体；支持生成结构化输出，尤其适用于发票、表格等扫描数据。模型在多项基准测试中表现出色，包括图像、视频和代理任务评测。

96000上下文窗口

输入￥4.2/百万 tokens

输出￥4.2/百万 tokens

支持能力:结构化输出

qwen/qwen2.5-32b-instruct

大语言

Qwen2.5-32B-Instruct 是阿里云发布的最新大语言模型系列之一。该 32B 模型在编码和数学等领域具有显著改进的能力。该模型提供了多语言支持，覆盖超过 29 种语言，包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出（尤其是 JSON）方面都有显著提升。

32000上下文窗口

输入￥1.26/百万 tokens

输出￥1.26/百万 tokens

支持能力:结构化输出Function Calling

baichuan/baichuan2-13b-chat

大语言

Baichuan-13B 百川智能开发的包含 130 亿参数的开源可商用的大规模语言模型，在权威的中文和英文 benchmark 上均取得同尺寸最好的效果

14336上下文窗口

输入￥1.75/百万 tokens

输出￥1.75/百万 tokens

meta-llama/llama-3.1-70b-instruct

大语言

企业认证专属

Meta最新一代的Llama 3.1模型系列，70B（700亿参数）的指令微调版本针对高质量对话场景进行了优化。在业界评估中，与领先的闭源模型相比，它展现出了强劲的性能。(仅针对企业实名认证通过主体开放）

32768上下文窗口

输入￥2.45/百万 tokens

输出￥2.82/百万 tokens

meta-llama/llama-3.1-8b-instruct

大语言

企业认证专属

Meta最新一代的Llama 3.1模型系列，8B（80亿参数）的指令微调版本特别快速高效。在业界评估中，表现出强劲的性能，超越了很多领先的闭源模型。(仅针对企业实名认证通过主体开放）

32768上下文窗口

输入￥0.4/百万 tokens

输出￥0.4/百万 tokens

01-ai/yi-1.5-34b-chat

大语言

零一万物，最新开源微调模型，340亿参数，微调支持多种对话场景，高质量训练数据，对齐人类偏好。

16384上下文窗口

输入￥1.1/百万 tokens

输出￥1.1/百万 tokens

01-ai/yi-1.5-9b-chat

大语言

零一万物，最新开源微调模型，90亿参数，微调支持多种对话场景，高质量训练数据，对齐人类偏好。

16384上下文窗口

输入￥0.4/百万 tokens

输出￥0.4/百万 tokens

thudm/glm-4-9b-chat

大语言

智谱AI发布的GLM-4系列最新一代预训练模型的开源版本。

32768上下文窗口

输入￥0.5/百万 tokens

输出￥0.5/百万 tokens

已下架

qwen/qwen-2-vl-72b-instruct

大语言

Qwen2-VL 是 Qwen-VL 模型的最新迭代版本，在视觉理解基准测试中达到了最先进的性能，包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。Qwen2-VL 能够理解超过 20 分钟的视频，用于高质量的基于视频的问答、对话和内容创作。它还具备复杂推理和决策能力，可以与移动设备、机器人等集成，基于视觉环境和文本指令进行自动操作。除了英语和中文，Qwen2-VL 现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语等

32768上下文窗口

输入￥4.5/百万 tokens

输出￥4.5/百万 tokens

已下架

qwen/qwen-2-7b-instruct

大语言

Qwen2是全新的Qwen大型语言模型系列。Qwen2 7B是一个基于transformer的模型，在语言理解、多语言能力、编程、数学和推理方面表现出色。

32768上下文窗口

输入￥0.32/百万 tokens

输出￥0.32/百万 tokens

baai/bge-m3

嵌入模型

多语言

1024维

BGE-M3 是一款具备多维度能力的文本嵌入模型，可同时实现密集检索、多向量检索和稀疏检索三大核心功能。该模型设计上兼容超过100种语言，并支持从短句到长达8192词元的长文本等多种输入形式。在跨语言检索任务中，BGE-M3展现出显著优势，其性能在MIRACL、MKQA等国际基准测试中位居前列。此外，针对长文档检索场景，该模型在MLDR、NarritiveQA等数据集上的表现同样达到行业领先水平。

8192上下文窗口

￥0.07/百万 tokens

简单易用：只需一行代码，开发者即可快速使用派欧云的模型服务。

查看 API 详细文档

Python

Curl

复制

from openai import OpenAI

client = OpenAI(
  base_url='https://api.ppinfra.com/llm/v1',
  api_key='<你的 API KEY>',
  # 获取 API Key 请参考：https://ppinfra.com/docs/support/quickstart
)

completion_res = client.completions.create(
  model='Qwen2-7B-Instruct',
  prompt='派欧算力云提供 GPU 云产品能用于哪些场景？',
  stream=True,
  max_tokens=512,
)