模型能力

大语言模型(LLM)是一种基于深度学习和自然语言处理技术的人工智能模型。经过大量的文本数据进行训练,它能够理解、生成和处理人类语言。主要具备以下能力:

  • 文本生成

    能够基于上下文生成逻辑连贯的文本内容,并根据需要调整输出风格。

  • 语言理解

    能够准确理解输入文本的含义,并支持结合上下文进行对话。

  • 文本翻译

    具备跨语言生成和理解的能力,可以实现不同语言之间的文本翻译。

  • 知识问答

    具有丰富的知识储备,能够回答文化、科学、历史等各个领域的问题。

  • 代码理解和生成

    能够理解并生成代码(如Python、Java、C++等),支持识别代码错误,提供代码建议等。

  • 文本分类和摘要

    能够理解复杂语句,进行信息分类和抽取,可以提取文本的关键点进行自动摘要。

模型选型

大语言模型服务页面,您可以查看平台支持的大语言模型列表,了解模型的基本介绍,价格等信息。单击具体的某一个模型,可以打开详情页面,按需进行在线体验。在结合具体任务进行充分体验后,您可以对比模型表现,选择适合的模型。

选型时,请了解以下注意事项:

  • DeepSeek R1 和 V3 community 版本仅供尝鲜(也是全参数满血版模型,稳定性和效果无差异),如需大量调用,请充值并切换到非 community 版本
  • 以下模型需要企业认证后才能使用。
    • meta-llama/llama-3.1-70b-instruct
    • meta-llama/llama-3.1-8b-instruct
    • meta-llama/llama-4-maverick-17b-128e-instruct-fp8
    • meta-llama/llama-4-scout-17b-16e-instruct
    • meta-llama/llama-3.3-70b-instruct
    • meta-llama/llama-3.2-3b-instruct
    • google/gemma-3-27b-it

接口调用

派欧算力云提供了与 OpenAI API 标准兼容的 API 服务,方便您集成到现有应用程序中。

如果您已经在使用 OpenAI 的 ChatCompletion 或 Completion API,您只需将基础 URL 设置为https://api.ppinfra.com/v3/openai,获取并设置您的 API 密钥,并按需更新模型名称,即可接入大语言模型 API 服务。

关于如何获取 API 密钥,请参见管理 API 密钥

代码示例

Python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ppinfra.com/v3/openai",
    api_key="<Your API Key>",
)

model = "deepseek/deepseek-r1"
stream = True  # 或 False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "您是一个专业的 AI 文档助手。",
        },
        {
            "role": "user",
            "content": "派欧算力云提供的 GPU 容器实例能用于哪些场景?",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Curl

export API_KEY="<Your API Key>"

curl "https://api.ppinfra.com/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${API_KEY}" \
  -d '{
    "model": "deepseek/deepseek-r1",
    "messages": [
        {
            "role": "system",
            "content": "您是一个专业的 AI 文档助手。"
        },
       {
            "role": "user",
            "content": "派欧算力云提供的 GPU 容器实例能用于哪些场景?"
        }
    ],
    "max_tokens": 512
}'

重点参数

基础参数

model:要调用的模型。您可以在大语言模型服务页面查看平台支持的大语言模型列表。

消息角色

仅适用于ChatCompletion。

messages:和大模型进行交互时的输入输出。每条消息都属于一个角色。消息可以帮助您获得更好的输出,您可以尝试不同的方法,以获得更好的结果。

  • content:消息内容。

  • role:消息作者的角色。

    • system:设定AI角色,告知模型要扮演的角色或者行为。
    • user:用户输入给模型的文本。
    • assistant:模型生成的回复。用户也可以预先填写示例,告知模型应该如何回应当前请求。
  • name:可选,用于区分相同角色的消息作者。

提示词

仅适用于Completion。

prompt:生成补全的提示词。是用户输入给大语言模型的文本信息,用于明确地告诉模型想要解决的问题或完成的任务,也是模型理解需求并生成相关、准确内容的基础。

控制生成

不同的参数组合可以让模型生成出更符合特定需求的内容。

文本多样性

temperaturetop_p均可控制生成文本的多样性,建议您只设置其中一个值。设置的数值越大,生成的文本越多样。数值越小,生成的文本越确定。

  • temperature:采样温度,调整生成文本的随机性。
  • top_p:核采样,控制候选词累计概率。
  • top_k:限制候选词数量。

内容重复性

  • presence_penalty:存在惩罚,控制模型生成文本时的内容重复度。如果一个 Token 在文本中已经出现,就会受到惩罚,这会使得模型引入更多新的 Token 。
  • frequency_penalty:概率惩罚,控制生成文本中某些词的出现频率。让 Token 每次在文本中出现都受到惩罚,从而减少这些 Token 在未来生成中的概率,阻止模型重复使用相同的 Token。
  • repetition_penalty:重复惩罚值,用于抑制或者鼓励重复。

输出限制

  • max_tokens:单次请求返回的最大 Token 数。如果模型生成的 Token 数超过max_tokens的值,会返回截断后的内容。
  • stream:控制输出是否是流式输出。对于一些输出内容比较多的模型,建议设置为流式输出,防止输出过长,导致输出超时。
    • true:流式输出,即边生成边输出,模型每生成一部分内容就返回一个片段。
    • false:模型生成完所有内容后一次性返回结果。
  • stop:终止字符。当模型生成的文本包含stop设置的字符串时,模型会停止输出。