大语言
大语言模型监控
派欧算力云为大语言模型 API 使用提供了全面的监控指标。这些指标让您能够深入了解 LLM API 请求的可用性和性能。
您可以通过 大语言模型(LLM)监控页面 查看监控指标。
指标说明
以下所有指标均按模型划分维度,并以分钟级别进行采样,但根据您选择的时间间隔,采样点可能不会每分钟都显示。在这种情况下,该时间间隔内的采样点将被平均后显示。
-
每分钟请求数 (RPM)
显示每分钟发出的 API 请求数量,帮助您了解使用模式和 API 并发级别。
-
请求成功率
显示每分钟成功 API 响应(非 5xx 状态码)的百分比,反映 API 的可用性。
-
每个请求的平均 Token 数量
显示每分钟每个请求的平均输入和输出 Token 数量,有助于了解 Token 消耗模式。
-
端到端(E2E)延迟
显示模型在每分钟请求中生成完整响应所需的总时间。包括 99 分位、95 分位和平均的延迟指标。
-
生成第一个 Token 的时间 (TTFT)
该指标仅在启用
stream=true
参数的流式请求中进行跟踪。显示每分钟请求中处理 Prompt 并生成第一个输出 Token 所需的时间。包括 99 分位、95 分位和平均的延迟指标。
-
每个输出 Token 的时间 (TPOT)
该指标仅在启用
stream=true
参数的流式请求中进行跟踪。显示每分钟请求中连续输出 token 之间的平均时间。包括 99 分位、95 分位和平均的延迟指标。