大语言模型概述
模型能力
大语言模型(LLM)是一种基于深度学习和自然语言处理技术的人工智能模型。经过大量的文本数据进行训练,它能够理解、生成和处理人类语言。主要具备以下能力:
-
文本生成
能够基于上下文生成逻辑连贯的文本内容,并根据需要调整输出风格。
-
语言理解
能够准确理解输入文本的含义,并支持结合上下文进行对话。
-
文本翻译
具备跨语言生成和理解的能力,可以实现不同语言之间的文本翻译。
-
知识问答
具有丰富的知识储备,能够回答文化、科学、历史等各个领域的问题。
-
代码理解和生成
能够理解并生成代码(如Python、Java、C++等),支持识别代码错误,提供代码建议等。
-
文本分类和摘要
能够理解复杂语句,进行信息分类和抽取,可以提取文本的关键点进行自动摘要。
模型选型
在大语言模型服务页面,您可以查看平台支持的大语言模型列表,了解模型的基本介绍,价格等信息。单击具体的某一个模型,可以打开详情页面,按需进行在线体验。在结合具体任务进行充分体验后,您可以对比模型表现,选择适合的模型。
选型时,请了解以下注意事项:
- DeepSeek R1 和 V3 community 版本仅供尝鲜(也是全参数满血版模型,稳定性和效果无差异),如需大量调用,请充值并切换到非 community 版本。
- 以下模型需要企业认证后才能使用。
- meta-llama/llama-3.1-70b-instruct
- meta-llama/llama-3.1-8b-instruct
- meta-llama/llama-4-maverick-17b-128e-instruct-fp8
- meta-llama/llama-4-scout-17b-16e-instruct
- meta-llama/llama-3.3-70b-instruct
- meta-llama/llama-3.2-3b-instruct
- google/gemma-3-27b-it
接口调用
派欧算力云提供了与 OpenAI API 标准兼容的 API 服务,方便您集成到现有应用程序中。
- ChatCompletion,支持 streaming 模式和常规模式。
- Completion,支持 streaming 模式和常规模式。
如果您已经在使用 OpenAI 的 ChatCompletion 或 Completion API,您只需将基础 URL 设置为https://api.ppinfra.com/v3/openai
,获取并设置您的 API 密钥,并按需更新模型名称,即可接入大语言模型 API 服务。
关于如何获取 API 密钥,请参见管理 API 密钥。
代码示例
Python
Curl
重点参数
基础参数
model
:要调用的模型。您可以在大语言模型服务页面查看平台支持的大语言模型列表。
消息角色
仅适用于ChatCompletion。
messages
:和大模型进行交互时的输入输出。每条消息都属于一个角色。消息可以帮助您获得更好的输出,您可以尝试不同的方法,以获得更好的结果。
-
content
:消息内容。 -
role
:消息作者的角色。system
:设定AI角色,告知模型要扮演的角色或者行为。user
:用户输入给模型的文本。assistant
:模型生成的回复。用户也可以预先填写示例,告知模型应该如何回应当前请求。
-
name
:可选,用于区分相同角色的消息作者。
提示词
仅适用于Completion。
prompt
:生成补全的提示词。是用户输入给大语言模型的文本信息,用于明确地告诉模型想要解决的问题或完成的任务,也是模型理解需求并生成相关、准确内容的基础。
控制生成
不同的参数组合可以让模型生成出更符合特定需求的内容。
文本多样性
temperature
与top_p
均可控制生成文本的多样性,建议您只设置其中一个值。设置的数值越大,生成的文本越多样。数值越小,生成的文本越确定。
temperature
:采样温度,调整生成文本的随机性。top_p
:核采样,控制候选词累计概率。top_k
:限制候选词数量。
内容重复性
presence_penalty
:存在惩罚,控制模型生成文本时的内容重复度。如果一个 Token 在文本中已经出现,就会受到惩罚,这会使得模型引入更多新的 Token 。frequency_penalty
:概率惩罚,控制生成文本中某些词的出现频率。让 Token 每次在文本中出现都受到惩罚,从而减少这些 Token 在未来生成中的概率,阻止模型重复使用相同的 Token。repetition_penalty
:重复惩罚值,用于抑制或者鼓励重复。
输出限制
max_tokens
:单次请求返回的最大 Token 数。如果模型生成的 Token 数超过max_tokens
的值,会返回截断后的内容。stream
:控制输出是否是流式输出。对于一些输出内容比较多的模型,建议设置为流式输出,防止输出过长,导致输出超时。true
:流式输出,即边生成边输出,模型每生成一部分内容就返回一个片段。false
:模型生成完所有内容后一次性返回结果。
stop
:终止字符。当模型生成的文本包含stop
设置的字符串时,模型会停止输出。