大语言模型服务可靠、可扩展、高性价比

使用 API 快速构建生成式AI应用

模型列表

提供行业领先、市场已充分验证的模型列表,帮您出色的完成AI应用建设。

这些模型普遍在角色扮演、故事扩写、代码生成、情感陪伴等领域具备高智商和高情商的表现。

直降20%
deepseek/deepseek-r1-turbo
大语言
全参数
满血加速版
八折优惠
DeepSeek R1 (Turbo)是派欧算力云平台提供的最新高性能DeepSeek R1 模型。DeepSeek R1是DeepSeek团队发布的最新开源模型,具备非常强悍的推理性能,尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。
64000上下文窗口
输入3.2/百万 tokens
输出12.8/百万 tokens
支持能力:Function Calling
直降20%
deepseek/deepseek-v3-turbo
大语言
全参数
满血加速版
八折优惠
DeepSeek V3 (Turbo) 是派欧算力云平台提供的最新高性能DeepSeek V3 模型。DeepSeek-V3 在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一,并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。
64000上下文窗口
输入1.6/百万 tokens
输出6.4/百万 tokens
支持能力:Function Calling
全新上线
baai/bge-m3
嵌入模型
多语言
1024维
8k
BGE-M3 是一款具备多维度能力的文本嵌入模型,可同时实现密集检索、多向量检索和稀疏检索三大核心功能。该模型设计上兼容超过100种语言,并支持从短句到长达8192词元的长文本等多种输入形式。在跨语言检索任务中,BGE-M3展现出显著优势,其性能在MIRACL、MKQA等国际基准测试中位居前列。此外,针对长文档检索场景,该模型在MLDR、NarritiveQA等数据集上的表现同样达到行业领先水平。
8192上下文窗口
0.07/百万 tokens
deepseek/deepseek-v3-0324
大语言
NEW
DeepSeek V3 0324 是深度求索(DeepSeek)团队旗舰级对话模型系列的最新版本,采用混合专家(Mixture-of-Experts, MoE)架构,参数量达685B参数。
128000上下文窗口
输入2/百万 tokens
输出8/百万 tokens
支持能力:Function Calling
deepseek/deepseek-r1/community
大语言
全参数
满血版
DeepSeek R1是DeepSeek团队发布的最新开源模型,具备非常强悍的推理性能,尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。
64000上下文窗口
输入4/百万 tokens
输出16/百万 tokens
deepseek/deepseek-v3/community
大语言
全参数
满血版
DeepSeek-V3在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一,并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。
64000上下文窗口
输入2/百万 tokens
输出8/百万 tokens
deepseek/deepseek-r1
大语言
全参数
满血版
DeepSeek R1是DeepSeek团队发布的最新开源模型,具备非常强悍的推理性能,尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平。
64000上下文窗口
输入4/百万 tokens
输出16/百万 tokens
支持能力:Function Calling
deepseek/deepseek-v3
大语言
全参数
满血版
DeepSeek-V3在推理速度方面实现了比之前模型的重大突破。在开源模型中排名第一,并可与全球最先进的闭源模型相媲美。DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。
64000上下文窗口
输入2/百万 tokens
输出8/百万 tokens
支持能力:Function Calling
qwen/qwq-32b
大语言
上新
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,能够在下游任务中实现显著增强的性能,尤其是在解决困难问题方面。QwQ-32B 是中型推理模型,能够在与最先进的推理模型(如 DeepSeek-R1、o1-mini)的对比中取得有竞争力的性能。
32768上下文窗口
输入1/百万 tokens
输出3.5/百万 tokens
支持能力:Function Calling
deepseek/deepseek-r1-distill-qwen-32b
大语言
DeepSeek R1 Distill Qwen 32B 是一种基于 Qwen 2.5 32B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。以下是一些基准测试的结果: AIME 2024 pass@1: 72.6 MATH-500 pass@1: 94.3 CodeForces Rating: 1691 该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。
64000上下文窗口
输入2.18/百万 tokens
输出2.18/百万 tokens
支持能力:结构化输出
deepseek/deepseek-r1-distill-qwen-14b
大语言
DeepSeek R1 Distill Qwen 14B 是一种基于 Qwen 2.5 14B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。以下是一些基准测试的结果: AIME 2024 pass@1: 69.7 MATH-500 pass@1: 93.9 CodeForces Rating: 1481 该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。
64000上下文窗口
输入1/百万 tokens
输出1/百万 tokens
支持能力:结构化输出
deepseek/deepseek-r1-distill-llama-70b
大语言
DeepSeek R1 Distill Llama 70B是基于Llama3.3 70B的大型语言模型,该模型利用DeepSeek R1输出的微调,实现了与大型前沿模型相当的竞争性能。
32000上下文窗口
输入5.8/百万 tokens
输出5.8/百万 tokens
支持能力:结构化输出
deepseek/deepseek-r1-distill-llama-8b
大语言
DeepSeek R1 Distill Llama 8B 是一种基于 Llama-3.1-8B-Instruct 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。
32000上下文窗口
输入0.3/百万 tokens
输出0.3/百万 tokens
支持能力:结构化输出
meta-llama/llama-3.3-70b-instruct
大语言
Meta Llama 3.3 是一款多语言的大型语言模型(LLM),它是一种经过预训练和指令微调的生成模型,包含 700 亿参数(输入文本/输出文本)。Llama 3.3 的指令微调文本模型专为多语言对话场景优化,在常见行业基准测试中,其表现优于许多现有的开源和闭源聊天模型。 支持的语言包括:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语
131072上下文窗口
输入2.8/百万 tokens
输出2.8/百万 tokens
支持能力:Function Calling
qwen/qwen-2.5-72b-instruct
大语言
Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升。
32768上下文窗口
输入2.75/百万 tokens
输出2.88/百万 tokens
支持能力:结构化输出Function Calling
qwen/qwen-2-vl-72b-instruct
大语言
Qwen2-VL 是 Qwen-VL 模型的最新迭代版本,在视觉理解基准测试中达到了最先进的性能,包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。Qwen2-VL 能够理解超过 20 分钟的视频,用于高质量的基于视频的问答、对话和内容创作。它还具备复杂推理和决策能力,可以与移动设备、机器人等集成,基于视觉环境和文本指令进行自动操作。除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语等
32768上下文窗口
输入4.5/百万 tokens
输出4.5/百万 tokens
meta-llama/llama-3.2-3b-instruct
大语言
Llama 3.2 3B 是一个拥有 30 亿参数的多语言大型语言模型,专为高级自然语言处理任务(如对话生成、推理和总结)而优化。该模型采用最新的 Transformer 架构,支持包括英语、西班牙语和印地语在内的八种语言,并可以适配其他语言。 Llama 3.2 3B 模型基于 9 万亿标记进行训练,在遵循指令、复杂推理和工具使用方面表现出色。其平衡的性能使其成为在多语言环境中需要文本生成的准确性和效率的应用场景的理想选择。
32768上下文窗口
输入0.216/百万 tokens
输出0.36/百万 tokens
支持能力:Function Calling
google/gemma-3-27b-it
大语言
NEW
Gemma 3 27B 是基于Gemini 2.0架构打造的开源大语言模型,该模型支持32K tokens长上下文处理,具备跨文本、图像和短视频的多模态推理能力;通过原生140种语言理解与官方量化技术,可在降低50%显存占用的同时保持高精度输出;同时具备增强的数学计算、逻辑推理和对话功能(包括结构化输出)。
32000上下文窗口
输入1.46/百万 tokens
输出1.46/百万 tokens
支持能力:结构化输出
qwen/qwen2.5-vl-72b-instruct
大语言
NEW
Qwen2.5-VL 是 Qwen2.5 系列最新推出的视觉语言模型。该模型在多方面有显著提升:具备更强的视觉理解能力,能够识别常见物体、分析文本、图表和布局;作为视觉代理能够推理并动态指导工具使用;支持理解超过 1 小时的长视频并捕捉关键事件;能够通过生成边界框或点准确定位图像中的物体;支持生成结构化输出,尤其适用于发票、表格等扫描数据。模型在多项基准测试中表现出色,包括图像、视频和代理任务评测。
96000上下文窗口
输入4.2/百万 tokens
输出4.2/百万 tokens
支持能力:结构化输出
qwen/qwen2.5-32b-instruct
大语言
Qwen2.5-32B-Instruct 是阿里云发布的最新大语言模型系列之一。该 32B 模型在编码和数学等领域具有显著改进的能力。该模型提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升。
32000上下文窗口
输入1.26/百万 tokens
输出1.26/百万 tokens
支持能力:结构化输出Function Calling
baichuan/baichuan2-13b-chat
大语言
Baichuan-13B 百川智能开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果
14336上下文窗口
输入1.75/百万 tokens
输出1.75/百万 tokens
meta-llama/llama-3.1-70b-instruct
大语言
Meta最新一代的Llama 3.1模型系列,70B(700亿参数)的指令微调版本针对高质量对话场景进行了优化。在业界评估中,与领先的闭源模型相比,它展现出了强劲的性能。(仅针对企业实名认证通过主体开放)
32768上下文窗口
输入2.45/百万 tokens
输出2.82/百万 tokens
meta-llama/llama-3.1-8b-instruct
大语言
Meta最新一代的Llama 3.1模型系列,8B(80亿参数)的指令微调版本特别快速高效。在业界评估中,表现出强劲的性能,超越了很多领先的闭源模型。(仅针对企业实名认证通过主体开放)
32768上下文窗口
输入0.4/百万 tokens
输出0.4/百万 tokens
01-ai/yi-1.5-34b-chat
大语言
零一万物,最新开源微调模型,340亿参数,微调支持多种对话场景,高质量训练数据,对齐人类偏好。
16384上下文窗口
输入1.1/百万 tokens
输出1.1/百万 tokens
01-ai/yi-1.5-9b-chat
大语言
零一万物,最新开源微调模型,90亿参数,微调支持多种对话场景,高质量训练数据,对齐人类偏好。
16384上下文窗口
输入0.4/百万 tokens
输出0.4/百万 tokens
thudm/glm-4-9b-chat
大语言
智谱AI发布的GLM-4系列最新一代预训练模型的开源版本。
32768上下文窗口
输入0.5/百万 tokens
输出0.5/百万 tokens
qwen/qwen-2-7b-instruct
大语言
Qwen2是全新的Qwen大型语言模型系列。Qwen2 7B是一个基于transformer的模型,在语言理解、多语言能力、编程、数学和推理方面表现出色。
32768上下文窗口
输入0.32/百万 tokens
输出0.32/百万 tokens
简单易用:只需一行代码,开发者即可快速使用派欧云的模型服务。
Python
Curl
copy复制
from openai import OpenAI

client = OpenAI(
  base_url='https://api.ppinfra.com/llm/v1',
  api_key='<你的 API KEY>',
  # 获取 API Key 请参考:https://ppinfra.com/docs/support/quickstart
)

completion_res = client.completions.create(
  model='Qwen2-7B-Instruct',
  prompt='派欧算力云提供 GPU 云产品能用于哪些场景?',
  stream=True,
  max_tokens=512,
)

大型语言模型

派欧算力云为您提供企业级大语言模型服务,比您自行部署 AI Infra,更可靠、更快、更经济、更具扩展性。

您可将精力集中在应用增长和客户服务上,而大型语言模型基础设施可放心交给派欧算力云

可靠稳定
可靠稳定
全球网络加速
推理低时延、稳定
超高性价比
超高性价比
按使用量计费
低成本,服务好
快速扩容
快速扩容
高效扩展 AI Infra
解决高峰负载问题

典型应用场景

AI 情感陪伴机器人
AI 情感陪伴机器人
AI 小说生成器
AI 小说生成器
AI 总结摘要
AI 总结摘要
AI 代码生成
AI 代码生成

立即体验,开启 AI 应用构建之旅

    联系我们