大语言
调用频率控制
调用频率控制,限制在特定时间内对我们 LLM API 发起请求的频率。理解并遵守这些限制对于优化 API 使用非常重要。
1. 理解调用频率控制
什么是调用频率控制?
调用频率控制规定了在特定时间内可发起的 API 请求的数量。它们帮助:
- 防止 API 滥用和误用
- 确保公平的资源分配
- 保持 API 性能和可靠性
- 保护服务的稳定性
默认调用频率控制
每个账户的默认调用频率控制为 每个模型每分钟最多 30 次请求(RPM)。这意味着您可以在一分钟内对每个模型发起最多 30 次请求。
为保障平台资源与服务稳定,以下免费模型单独设置 RPM 为 10:
- deepseek/deepseek-r1/community
- deepseek/deepseek-v3/community
2. 处理调用频率控制
如何监控调用频率控制?
当你超过调用频率控制时,API 将返回:
- HTTP 状态码:429(请求过多)
- 响应体中返回调用频率超出的信息
最佳实践
为避免触发调用频率控制:
- 在你的应用中实现请求限制
- 在重试时使用指数退避机制
- 监控您的 API 使用情况
当你触发调用频率控制
如果你收到 429 错误,你可以:
- 稍后再试:等待短时间后再重试你的请求
- 优化请求:减少请求频率
- 提高调用频率控制:如果需要更高的调用频率控制,可以 联系我们
如果您有任何问题,请随时联系我们