不再显示

大语言模型服务可靠、可扩展、高性价比

使用 API 快速构建生成式AI应用

帮助文档申请优惠

模型列表

提供行业领先、市场已充分验证的模型列表，帮您出色的完成AI应用建设。

这些模型普遍在角色扮演、故事扩写、代码生成、情感陪伴等领域具备高智商和高情商的表现。

全新上线

qwen/qwen3-235b-a22b-fp8

大语言

NEW

实现推理模式和非推理模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct，达到同规模业界SOTA水平。

128000上下文窗口

输入￥1.45/百万 tokens

输出￥5.8/百万 tokens

全新上线

qwen/qwen3-30b-a3b-fp8

大语言

NEW

实现推理模式和非推理模式的有效融合，可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-14B，达到同规模业界SOTA水平。

128000上下文窗口

输入￥0.72/百万 tokens

输出￥3.26/百万 tokens

全新上线

qwen/qwen3-32b-fp8

大语言

NEW

实现推理模式和非推理模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct，达到同规模业界SOTA水平。

128000上下文窗口

输入￥0.72/百万 tokens

输出￥3.26/百万 tokens

deepseek/deepseek-prover-v2-671b

大语言

NEW

Deepseek 全新开源模型 DeepSeek-Prover-V2-671B，专注于数学定理证明任务。该模型基于混合专家 (MoE) 架构，并利用 Lean 4 框架进行形式化推理训练。该模型参数规模达 6710 亿，结合强化学习和大规模合成数据，显著提升了自动化证明能力。

160000上下文窗口

输入￥4/百万 tokens

输出￥16/百万 tokens

deepseek/deepseek-v3-0324

大语言

NEW

DeepSeek V3 0324 是深度求索（DeepSeek）团队旗舰级对话模型系列的最新版本，采用混合专家（Mixture-of-Experts, MoE）架构，参数量达685B参数。

128000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

直降20%

deepseek/deepseek-r1-turbo

大语言

全参数

满血加速版

八折优惠

DeepSeek R1 (Turbo)是派欧算力云平台提供的最新高性能DeepSeek R1 模型。DeepSeek R1是DeepSeek团队发布的最新开源模型，具备非常强悍的推理性能，尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。

64000上下文窗口

输入￥4/百万 tokens

输出￥16/百万 tokens

支持能力:Function Calling

直降20%

deepseek/deepseek-v3-turbo

大语言

全参数

满血加速版

八折优惠

DeepSeek V3 (Turbo) 是派欧算力云平台提供的最新高性能DeepSeek V3 模型。DeepSeek-V3 在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一，并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。

64000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

meta-llama/llama-4-maverick-17b-128e-instruct-fp8

大语言

企业认证专属

Llama 4 Maverick 17B Instruct (128E) 是 Meta 基于混合专家（MoE）架构开发的高性能多模态语言模型，每次推理动态激活 170 亿参数（总参数量达 4000 亿），集成 128 个专家模块。该模型支持 12 种语言的文本/图像输入及文本/代码输出，专为视觉-语言任务优化，通过指令微调实现类助手交互、图像推理和通用多模态应用。采用早期融合技术实现原生多模态处理，具备 100 万 token 的上下文窗口，训练数据融合公开资源、授权内容及 Meta 平台数据（总量约 22 万亿 token），知识截止于 2024 年 8 月。2025 年 4 月 5 日以 Llama 4 社区许可证发布，适用于需要先进多模态理解和高吞吐量的研究及商业场景。

1048576上下文窗口

输入￥1.45/百万 tokens

输出￥6.2/百万 tokens

支持能力:Function Callingvision

meta-llama/llama-4-scout-17b-16e-instruct

大语言

企业认证专属

Llama 4 Scout 17B Instruct (16E) 是由 Meta 开发的混合专家（MoE）语言模型，从 1090 亿总参数中动态激活 170 亿参数，支持文本和图像的多模态输入，并能以 12 种语言输出文本和代码。该模型专为智能助手交互和视觉推理设计，每次推理调用 16 个专家模块，具备 1000 万 token 的超长上下文窗口，训练数据规模达 40 万亿 token。通过早期融合技术实现跨模态无缝集成，适用于多语言对话、图像描述和视觉理解等任务，采用 Llama 4 社区许可证，训练数据更新至 2024 年 8 月，并于 2025 年 4 月 5 日正式发布。

131072上下文窗口

输入￥0.725/百万 tokens

输出￥3.6/百万 tokens

支持能力:Function Callingvision

deepseek/deepseek-r1

大语言

全参数

满血版

DeepSeek R1是DeepSeek团队发布的最新开源模型，具备非常强悍的推理性能，尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。

64000上下文窗口

输入￥4/百万 tokens

输出￥16/百万 tokens

支持能力:Function Calling

deepseek/deepseek-v3

大语言

全参数

满血版

DeepSeek-V3在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一，并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。

64000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

deepseek/deepseek-v3/community

大语言

全参数

满血版

64000上下文窗口

输入￥2/百万 tokens

输出￥8/百万 tokens

支持能力:Function Calling

deepseek/deepseek-r1/community

大语言

全参数

满血版

DeepSeek R1是DeepSeek团队发布的最新开源模型，具备非常强悍的推理性能，尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。

64000上下文窗口

输入￥4/百万 tokens

输出￥16/百万 tokens

支持能力:Function Calling

deepseek/deepseek-r1-distill-qwen-32b

大语言

DeepSeek R1 Distill Qwen 32B 是一种基于 Qwen 2.5 32B 的蒸馏大语言模型，通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini，取得了密集模型（dense models）的最新技术领先成果（state-of-the-art）。以下是一些基准测试的结果： AIME 2024 pass@1: 72.6 MATH-500 pass@1: 94.3 CodeForces Rating: 1691 该模型通过从 DeepSeek R1 的输出中进行微调，展现了与更大规模的前沿模型相当的竞争性能。

64000上下文窗口

输入￥2.18/百万 tokens

输出￥2.18/百万 tokens

支持能力:结构化输出

deepseek/deepseek-r1-distill-qwen-14b

大语言

DeepSeek R1 Distill Qwen 14B 是一种基于 Qwen 2.5 14B 的蒸馏大语言模型，通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini，取得了密集模型（dense models）的最新技术领先成果（state-of-the-art）。以下是一些基准测试的结果： AIME 2024 pass@1: 69.7 MATH-500 pass@1: 93.9 CodeForces Rating: 1481 该模型通过从 DeepSeek R1 的输出中进行微调，展现了与更大规模的前沿模型相当的竞争性能。

64000上下文窗口

输入￥1/百万 tokens

输出￥1/百万 tokens

支持能力:结构化输出

deepseek/deepseek-r1-distill-llama-70b

大语言

DeepSeek R1 Distill Llama 70B是基于Llama3.3 70B的大型语言模型，该模型利用DeepSeek R1输出的微调，实现了与大型前沿模型相当的竞争性能。

32000上下文窗口

输入￥5.8/百万 tokens

输出￥5.8/百万 tokens

支持能力:结构化输出

deepseek/deepseek-r1-distill-llama-8b

大语言

DeepSeek R1 Distill Llama 8B 是一种基于 Llama-3.1-8B-Instruct 的蒸馏大语言模型，通过使用 DeepSeek R1 的输出进行训练而得。

32000上下文窗口

输入￥0.3/百万 tokens

输出￥0.3/百万 tokens

支持能力:结构化输出

qwen/qwq-32b

大语言

上新

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，QwQ 具备思考和推理能力，能够在下游任务中实现显著增强的性能，尤其是在解决困难问题方面。QwQ-32B 是中型推理模型，能够在与最先进的推理模型（如 DeepSeek-R1、o1-mini）的对比中取得有竞争力的性能。

32000上下文窗口

输入￥1/百万 tokens

输出￥3.5/百万 tokens

支持能力:Function Calling

qwen/qwen-2.5-72b-instruct

大语言

Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持，覆盖超过 29 种语言，包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出（尤其是 JSON）方面都有显著提升。

32000上下文窗口

输入￥2.75/百万 tokens

输出￥2.88/百万 tokens

支持能力:结构化输出Function Calling

qwen/qwen3-8b-fp8

大语言

NEW

实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。

128000上下文窗口

输入￥0.25/百万 tokens

输出￥1/百万 tokens

qwen/qwen3-14b-fp8

大语言

NEW

实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。

128000上下文窗口

输入￥0.5/百万 tokens

输出￥2/百万 tokens

qwen/qwen2.5-vl-72b-instruct

大语言

NEW

Qwen2.5-VL 是 Qwen2.5 系列最新推出的视觉语言模型。该模型在多方面有显著提升：具备更强的视觉理解能力，能够识别常见物体、分析文本、图表和布局；作为视觉代理能够推理并动态指导工具使用；支持理解超过 1 小时的长视频并捕捉关键事件；能够通过生成边界框或点准确定位图像中的物体；支持生成结构化输出，尤其适用于发票、表格等扫描数据。模型在多项基准测试中表现出色，包括图像、视频和代理任务评测。

96000上下文窗口

输入￥4.2/百万 tokens

输出￥4.2/百万 tokens

支持能力:结构化输出vision

qwen/qwen2.5-32b-instruct

大语言

Qwen2.5-32B-Instruct 是阿里云发布的最新大语言模型系列之一。该 32B 模型在编码和数学等领域具有显著改进的能力。该模型提供了多语言支持，覆盖超过 29 种语言，包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出（尤其是 JSON）方面都有显著提升。

32000上下文窗口

输入￥1.26/百万 tokens

输出￥1.26/百万 tokens

支持能力:结构化输出Function Calling

thudm/glm-z1-32b-0414

大语言

NEW

GLM-Z1-32B-0414 是一个具有深度思考能力的推理模型。该模型基于 GLM-4-32B-0414 通过冷启动和扩展强化学习开发，并在数学、代码和逻辑任务上进行了进一步训练。与基础模型相比，GLM-Z1-32B-0414 显著提升了数学能力和解决复杂任务的能力。在训练过程中，研究团队还引入了基于成对排序反馈的通用强化学习，进一步增强了模型的通用能力。虽然只有 32B 参数，但在部分任务上，其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。通过在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中的评估，该模型展现了较强的数理推理能力，能够支持解决更广泛复杂任务。

32000上下文窗口

输入￥1.75/百万 tokens

输出￥1.75/百万 tokens

支持能力:结构化输出Function Calling

thudm/glm-4-32b-0414

大语言

NEW

GLM-4-32B-0414 是 GLM 系列的新一代开源模型，拥有 320 亿参数。该模型性能可与 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列相媲美，并支持非常用户友好的本地部署功能。GLM-4-32B-Base-0414 是在 15T 高质量数据上预训练的，包括大量推理类型的合成数据，为后续的强化学习扩展奠定了基础。在后训练阶段，除了对话场景的人类偏好对齐外，研究团队还使用拒绝采样和强化学习等技术增强了模型在指令遵循、工程代码和函数调用方面的表现，加强了代理任务所需的原子能力。GLM-4-32B-0414 在工程代码、Artifact 生成、函数调用、基于搜索的问答和报告生成等领域取得了良好的成果，部分 Benchmark 指标已接近甚至超越 GPT-4o、DeepSeek-V3-0324（671B）等更大模型的水平。

32000上下文窗口

输入￥1.75/百万 tokens

输出￥1.75/百万 tokens

支持能力:结构化输出Function Calling

thudm/glm-z1-rumination-32b-0414

大语言

NEW

GLM-4-32B-Base-0414 在预训练阶段使用了 15 万亿 tokens 的高质量数据，其中包含大量推理类的合成数据，为后续的强化学习扩展奠定了坚实基础。在后训练阶段，除了通过人类偏好对齐优化对话场景的表现外，我们还利用拒绝采样和强化学习等技术，增强了模型在指令理解、工程代码生成、函数调用等方面的能力，从而强化了智能体任务所需的“原子能力”。 GLM-4-32B-0414 在工程代码生成、Artifact 构建、函数调用、基于搜索的问答、报告生成等方面表现优异。在部分评测基准中，其表现甚至可媲美更大规模的模型，如 GPT-4o 和 DeepSeek-V3-0324（参数规模达 671B）。

32000上下文窗口

输入￥1.75/百万 tokens

输出￥1.75/百万 tokens

支持能力:结构化输出Function Calling

google/gemma-3-27b-it

大语言

NEW

企业认证专属

Gemma 3 27B 是基于Gemini 2.0架构打造的开源大语言模型，该模型支持32K tokens长上下文处理，具备跨文本、图像和短视频的多模态推理能力；通过原生140种语言理解与官方量化技术，可在降低50%显存占用的同时保持高精度输出；同时具备增强的数学计算、逻辑推理和对话功能（包括结构化输出）。

32000上下文窗口

输入￥1.46/百万 tokens

输出￥1.46/百万 tokens

支持能力:结构化输出vision

baichuan/baichuan2-13b-chat

大语言

Baichuan-13B 百川智能开发的包含 130 亿参数的开源可商用的大规模语言模型，在权威的中文和英文 benchmark 上均取得同尺寸最好的效果

14336上下文窗口

输入￥1.75/百万 tokens

输出￥1.75/百万 tokens

meta-llama/llama-3.3-70b-instruct

大语言

企业认证专属

Meta Llama 3.3 是一款多语言的大型语言模型（LLM），它是一种经过预训练和指令微调的生成模型，包含 700 亿参数（输入文本/输出文本）。Llama 3.3 的指令微调文本模型专为多语言对话场景优化，在常见行业基准测试中，其表现优于许多现有的开源和闭源聊天模型。支持的语言包括：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语

131072上下文窗口

输入￥2.8/百万 tokens

输出￥2.8/百万 tokens

支持能力:Function Calling

meta-llama/llama-3.1-70b-instruct

大语言

企业认证专属

Meta最新一代的Llama 3.1模型系列，70B（700亿参数）的指令微调版本针对高质量对话场景进行了优化。在业界评估中，与领先的闭源模型相比，它展现出了强劲的性能。(仅针对企业实名认证通过主体开放）

32000上下文窗口

输入￥2.45/百万 tokens

输出￥2.82/百万 tokens

meta-llama/llama-3.1-8b-instruct

大语言

企业认证专属

Meta最新一代的Llama 3.1模型系列，8B（80亿参数）的指令微调版本特别快速高效。在业界评估中，表现出强劲的性能，超越了很多领先的闭源模型。(仅针对企业实名认证通过主体开放）

32000上下文窗口

输入￥0.4/百万 tokens

输出￥0.4/百万 tokens

01-ai/yi-1.5-34b-chat

大语言

零一万物，最新开源微调模型，340亿参数，微调支持多种对话场景，高质量训练数据，对齐人类偏好。

16384上下文窗口

输入￥1.1/百万 tokens

输出￥1.1/百万 tokens

01-ai/yi-1.5-9b-chat

大语言

零一万物，最新开源微调模型，90亿参数，微调支持多种对话场景，高质量训练数据，对齐人类偏好。

16384上下文窗口

输入￥0.4/百万 tokens

输出￥0.4/百万 tokens

qwen/qwen2.5-7b-instruct

大语言

Qwen2.5 是 Qwen 大语言模型的最新系列。在 Qwen2.5 中，发布了多个基础语言模型和指令微调语言模型，参数规模从 0.5 亿到 720 亿不等。相比 Qwen2，Qwen2.5 带来了以下显著提升： - 知识储备显著提升，并在编程和数学能力上有大幅增强，这得益于我们在这些领域训练的专业专家模型。 - 在指令理解与执行、生成长文本（超过8K tokens）、理解结构化数据（如表格）、以及生成结构化输出（尤其是 JSON）方面表现大幅提升。对多样化的系统提示更具适应性，增强了角色扮演实现和聊天机器人的条件设定能力。 - 长上下文支持扩展至最多 128K tokens，最多可生成 8K tokens 的内容。 - 多语言支持涵盖超过 29 种语言，包括中文、英文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

支持能力:结构化输出Function Calling

meta-llama/llama-3.2-3b-instruct

大语言

企业认证专属

Llama 3.2 3B 是一个拥有 30 亿参数的多语言大型语言模型，专为高级自然语言处理任务（如对话生成、推理和总结）而优化。该模型采用最新的 Transformer 架构，支持包括英语、西班牙语和印地语在内的八种语言，并可以适配其他语言。 Llama 3.2 3B 模型基于 9 万亿标记进行训练，在遵循指令、复杂推理和工具使用方面表现出色。其平衡的性能使其成为在多语言环境中需要文本生成的准确性和效率的应用场景的理想选择。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

支持能力:Function Calling

qwen/qwen3-0.6b-fp8

大语言

NEW

FREE

实现思考模式和非思考模式的有效融合，可在对话中切换模式。通用能力显著超过Qwen2.5小规模系列。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

qwen/qwen3-1.7b-fp8

大语言

NEW

FREE

实现思考模式和非思考模式的有效融合，可在对话中切换模式。通用能力显著超过Qwen2.5小规模系列，模型人类偏好能力显著增强，创意写作、角色扮演、多轮对话、指令遵循能力均有明显提升，用户体验预期明显更佳。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

qwen/qwen3-4b-fp8

大语言

NEW

FREE

实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、模型人类偏好能力显著增强，创意写作、角色扮演、多轮对话、指令遵循能力均有明显提升，用户体验预期明显更佳。

128000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

thudm/glm-4-9b-0414

大语言

NEW

GLM-4-9B-0414 是 GLM 系列的小型模型，拥有 90 亿参数。该模型继承了 GLM-4-32B 系列的技术特点，但提供了更轻量级的部署选择。尽管规模较小，GLM-4-9B-0414 仍在代码生成、网页设计、SVG 图形生成和基于搜索的写作等任务上展现出色能力。该模型还支持函数调用功能，可以调用外部工具以扩展其能力范围。模型在资源受限的场景中表现出良好的效率与效果平衡，为需要在计算资源有限条件下部署 AI 模型的用户提供了强大选择。与其他同系列模型一样，GLM-4-9B-0414 也展示了在各种基准测试中的竞争性能力。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

支持能力:结构化输出Function Calling

thudm/glm-z1-9b-0414

大语言

NEW

GLM-Z1-9B-0414 是 GLM 系列的小型模型，仅有 90 亿参数，但保持了开源传统的同时展现出惊人的能力。尽管规模较小，该模型在数学推理和通用任务上仍表现出色，其总体性能在同等规模的开源模型中已处于领先水平。研究团队采用了与大模型相同的一系列技术进行训练，使其在资源受限的场景中能够实现效率与效果的绝佳平衡，为寻求轻量级部署的用户提供强大选择。特别是在资源受限的场景下，该模型可以很好地在效率与效果之间取得平衡，为需要轻量化部署的用户提供强有力的选择。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

支持能力:结构化输出

thudm/glm-4-9b-chat

大语言

智谱AI发布的GLM-4系列最新一代预训练模型的开源版本。

32000上下文窗口

输入￥0/百万 tokens

输出￥0/百万 tokens

baai/bge-m3

嵌入模型

多语言

1024维

BGE-M3 是一款具备多维度能力的文本嵌入模型，可同时实现密集检索、多向量检索和稀疏检索三大核心功能。该模型设计上兼容超过100种语言，并支持从短句到长达8192词元的长文本等多种输入形式。在跨语言检索任务中，BGE-M3展现出显著优势，其性能在MIRACL、MKQA等国际基准测试中位居前列。此外，针对长文档检索场景，该模型在MLDR、NarritiveQA等数据集上的表现同样达到行业领先水平。

8192上下文窗口

￥0/百万 tokens

简单易用：只需一行代码，开发者即可快速使用派欧云的模型服务。

查看 API 详细文档

Python

Curl

复制

from openai import OpenAI

client = OpenAI(
  base_url='https://api.ppinfra.com/llm/v1',
  api_key='<你的 API KEY>',
  # 获取 API Key 请参考：https://ppinfra.com/docs/support/quickstart
)

completion_res = client.completions.create(
  model='Qwen2-7B-Instruct',
  prompt='派欧算力云提供 GPU 云产品能用于哪些场景？',
  stream=True,
  max_tokens=512,
)