派欧算力云为您的大语言模型 (LLM) API 使用提供了全面的监控指标。这些指标让您能够深入了解 LLM API 请求的可用性和性能。

您可以通过 大语言模型(LLM)监控 访问这些指标。

可用指标

以下所有指标均按模型划分维度,并以分钟级别进行采样,但根据您选择的时间间隔,采样点可能不会每分钟都显示。在这种情况下,该时间间隔内的采样点将被平均后显示。

每分钟请求数 (RPM)

显示每分钟发出的 API 请求数量,帮助您了解使用模式和 API 并发级别。

请求成功率

显示每分钟成功 API 响应(非 5xx 状态码)的百分比,反映 API 的可用性。

每个请求的平均 Token 数量

显示每分钟每个请求的平均输入和输出 Token 数量,有助于了解 Token 消耗模式。

端到端(E2E)延迟

显示模型在每分钟请求中生成完整响应所需的总时间。包括 99 分位、95 分位和平均的延迟指标。

生成第一个 Token 的时间 (TTFT)

此指标仅在启用 stream=true 参数的流式请求中进行跟踪。

显示每分钟请求中处理 prompt 并生成第一个输出 token 所需的时间。包括 99 分位、95 分位和平均的延迟指标。

每个输出 Token 的时间 (TPOT)

此指标仅在启用 stream=true 参数的流式请求中进行跟踪。

显示每分钟请求中连续输出 token 之间的平均时间。包括 99 分位、95 分位和平均的延迟指标。