大语言
调用频率控制(Rate Limits)
理解调用频率控制
调用频率控制规定了在特定时间内可发起的 API 请求的数量,可以帮助优化 API 使用。
- 防止 API 滥用和误用
- 确保公平的资源分配
- 保持 API 性能和可靠性
- 保护服务的稳定性
默认调用频率控制
每个账户调用模型都有默认的速率限制,RPM 规定了对每个模型每分钟可发送的请求数量上限。
模型的默认 RPM 如下:
模型名称 | 付费用户默认值 | 免费用户默认值 |
---|---|---|
thudm/glm-4-9b-chat | 1000 | 1000 |
01-ai/yi-1.5-9b-chat | 300 | 50 |
01-ai/yi-1.5-34b-chat | 300 | 20 |
meta-llama/llama-3.1-8b-instruct | 300 | 50 |
meta-llama/llama-3.1-70b-instruct | 300 | 20 |
baichuan/baichuan2-13b-chat | 300 | 50 |
qwen/qwen2.5-32b-instruct | 300 | 20 |
qwen/qwen-2.5-72b-instruct | 300 | 20 |
meta-llama/llama-3.2-3b-instruct | 1000 | 1000 |
deepseek/deepseek-v3 | 300 | 10 |
deepseek/deepseek-r1 | 300 | 10 |
deepseek/deepseek-r1-distill-llama-70b | 300 | 20 |
deepseek/deepseek-r1-distill-llama-8b | 300 | 50 |
deepseek/deepseek-r1-distill-qwen-14b | 300 | 50 |
deepseek/deepseek-r1-distill-qwen-32b | 300 | 20 |
deepseek/deepseek-r1/community | 300 | 10 |
deepseek/deepseek-v3/community | 300 | 10 |
meta-llama/llama-3.3-70b-instruct | 300 | 20 |
baai/bge-m3 | 1000 | 1000 |
deepseek/deepseek-v3-turbo | 300 | 10 |
deepseek/deepseek-r1-turbo | 300 | 10 |
qwen/qwq-32b | 300 | 20 |
qwen/qwen2.5-vl-72b-instruct | 300 | 20 |
google/gemma-3-27b-it | 300 | 20 |
deepseek/deepseek-v3-0324 | 300 | 10 |
meta-llama/llama-4-maverick-17b-128e-instruct-fp8 | 300 | 10 |
meta-llama/llama-4-scout-17b-16e-instruct | 300 | 10 |
qwen/qwen2.5-7b-instruct | 1000 | 1000 |
避免触发调用频率控制
如果您的 API 请求数量超过了调用频率控制,API 将返回:
- HTTP 状态码:429(请求过多)。
- 响应体中返回调用频率超出的信息。
为避免触发调用频率控制,您可以采取以下措施:
- 在您的应用中实现请求限制。
- 在重试时使用指数退避机制。
- 监控您的 API 使用情况。
处理429错误
如果您收到 429 错误,您可以尝试以下操作:
-
稍后再试:等待一段时间后再重试您的请求。
-
优化请求:减少请求频率。
-
提高调用频率控制:如果需要更高的调用频率控制,可以联系我们
。