D
DeepSeek: DeepSeek R1 Distill Qwen 32B
输入 ¥2.18/ 百万 tokens | 输出 ¥2.18/ 百万 tokensDeepSeek R1 Distill Qwen 32B 是一种基于 Qwen 2.5 32B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。以下是一些基准测试的结果:
AIME 2024 pass@1: 72.6
MATH-500 pass@1: 94.3
CodeForces Rating: 1691
该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。大语言D
DeepSeek: DeepSeek R1 Distill Qwen 14B
输入 ¥1/ 百万 tokens | 输出 ¥1/ 百万 tokensDeepSeek R1 Distill Qwen 14B 是一种基于 Qwen 2.5 14B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。以下是一些基准测试的结果:
AIME 2024 pass@1: 69.7
MATH-500 pass@1: 93.9
CodeForces Rating: 1481
该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。大语言D
DeepSeek R1 Distill Llama 70B
输入 ¥5.8/ 百万 tokens | 输出 ¥5.8/ 百万 tokensDeepSeek R1 Distill Llama 70B是基于Llama3.3 70B的大型语言模型,该模型利用DeepSeek R1输出的微调,实现了与大型前沿模型相当的竞争性能。大语言D
DeepSeek: DeepSeek R1 Distill Llama 8B
输入 ¥0.3/ 百万 tokens | 输出 ¥0.3/ 百万 tokensDeepSeek R1 Distill Llama 8B 是一种基于 Llama-3.1-8B-Instruct 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。大语言Q
Qwen:Qwen2.5-vl-72b-instruct
输入 ¥4.2/ 百万 tokens | 输出 ¥4.2/ 百万 tokensQwen2.5-VL 是 Qwen2.5 系列最新推出的视觉语言模型。该模型在多方面有显著提升:具备更强的视觉理解能力,能够识别常见物体、分析文本、图表和布局;作为视觉代理能够推理并动态指导工具使用;支持理解超过 1 小时的长视频并捕捉关键事件;能够通过生成边界框或点准确定位图像中的物体;支持生成结构化输出,尤其适用于发票、表格等扫描数据。模型在多项基准测试中表现出色,包括图像、视频和代理任务评测。大语言NEW