大语言
调用频率控制(Rate Limits)
理解调用频率控制
调用频率控制规定了在特定时间内可发起的 API 请求的数量,可以帮助优化 API 使用。
- 防止 API 滥用和误用
- 确保公平的资源分配
- 保持 API 性能和可靠性
- 保护服务的稳定性
默认调用频率控制
每个账户在调用模型时都有默认的速率限制,分别以 RPM(每分钟每个模型的请求数)和 TPM(每分钟每个模型的 token 数)为单位进行衡量。速率限制会因账户等级不同而有所差异,具体标准见下方表格。
Quota 等级 | 资质(单位:人民币元) |
---|---|
T1 | 最近 3 个自然月中,单月最高充值总金额< ¥50 |
T2 | ¥50 ≤ 最近 3 个自然月中,单月最高充值总金额< ¥500 |
T3 | ¥500 ≤ 最近 3 个自然月中,单月最高充值总金额< ¥3000 |
T4 | ¥3000 ≤ 最近 3 个自然月中,单月最高充值总金额< ¥10000 |
T5 | ¥10000 ≤ 最近 3 个自然月中,单月最高充值总金额 |
各等级的默认速率限制(RPM / TPM):
避免触发调用频率控制
如果您的 API 请求数量超过了调用频率控制,API 将返回:
- HTTP 状态码:429(请求过多)。
- 响应体中返回调用频率超出的信息。
为避免触发调用频率控制,您可以采取以下措施:
- 在您的应用中实现请求限制。
- 在重试时使用指数退避机制。
- 监控您的 API 使用情况。
处理429错误
如果您收到 429 错误,您可以尝试以下操作:
- 稍后再试:等待一段时间后再重试您的请求。
- 优化请求:减少请求频率。
- 提高调用频率控制:如果需要更高的调用频率控制,可以联系我们。