调用频率控制（Rate Limits） - 派欧算力云文档中心

理解调用频率控制

调用频率控制规定了在特定时间内可发起的 API 请求的数量，可以帮助优化 API 使用。

防止 API 滥用和误用
确保公平的资源分配
保持 API 性能和可靠性
保护服务的稳定性

默认调用频率控制

每个账户调用模型都有默认的速率限制，RPM 规定了对每个模型每分钟可发送的请求数量上限。

模型的默认 RPM 如下：

模型名称	付费用户默认值	免费用户默认值
`thudm/glm-4-9b-chat`	1000	1000
`01-ai/yi-1.5-9b-chat`	300	50
`01-ai/yi-1.5-34b-chat`	300	20
`meta-llama/llama-3.1-8b-instruct`	300	50
`meta-llama/llama-3.1-70b-instruct`	300	20
`baichuan/baichuan2-13b-chat`	300	50
`qwen/qwen2.5-32b-instruct`	300	20
`qwen/qwen-2.5-72b-instruct`	300	20
`meta-llama/llama-3.2-3b-instruct`	1000	1000
`deepseek/deepseek-v3`	300	10
`deepseek/deepseek-r1`	300	10
`deepseek/deepseek-r1-distill-llama-70b`	300	20
`deepseek/deepseek-r1-distill-llama-8b`	300	50
`deepseek/deepseek-r1-distill-qwen-14b`	300	50
`deepseek/deepseek-r1-distill-qwen-32b`	300	20
`deepseek/deepseek-r1/community`	300	10
`deepseek/deepseek-v3/community`	300	10
`meta-llama/llama-3.3-70b-instruct`	300	20
`baai/bge-m3`	1000	1000
`deepseek/deepseek-v3-turbo`	300	10
`deepseek/deepseek-r1-turbo`	300	10
`qwen/qwq-32b`	300	20
`qwen/qwen2.5-vl-72b-instruct`	300	20
`google/gemma-3-27b-it`	300	20
`deepseek/deepseek-v3-0324`	300	10
`meta-llama/llama-4-maverick-17b-128e-instruct-fp8`	300	10
`meta-llama/llama-4-scout-17b-16e-instruct`	300	10
`qwen/qwen2.5-7b-instruct`	1000	1000

避免触发调用频率控制

如果您的 API 请求数量超过了调用频率控制，API 将返回：

HTTP 状态码：429（请求过多）。
响应体中返回调用频率超出的信息。

为避免触发调用频率控制，您可以采取以下措施：

在您的应用中实现请求限制。
在重试时使用指数退避机制。
监控您的 API 使用情况。

处理429错误

如果您收到 429 错误，您可以尝试以下操作：

稍后再试：等待一段时间后再重试您的请求。
优化请求：减少请求频率。
提高调用频率控制：如果需要更高的调用频率控制，可以联系我们

。

大语言模型监控结构化输出

在此页面

理解调用频率控制
默认调用频率控制
避免触发调用频率控制
处理429错误