PPInfer为 LLM 推理提供卓越的性能

为 LLM 提供推理加速服务,实现显著的成本优势

PPInfer 核心优势

PPInfer 是派欧算力云基于 vLLM 进行二次开发和深度优化的推理引擎。在常规的推理加速技术之上,自研全链路 FP8 量化、KV Cache 稀疏压缩、投机采样等技术,实现 LLM 推理性能显著提升

延迟降低 2.5

与官方 vLLM 相比,自研的 ppinfer 实现 2.5 倍 以上延迟优化

吞吐提升 3.5

Llama-3.1-8B 模型在 ppinfer 上,无精度损失的情况下达到 260 tokens/second 的输出速度,与官方 vLLM 相比,吞吐提升 3.5

推理成本降低 95%

与 OpenAI GPT-4o 相比,Llama-3.1-70B 模型为例,推理价格下降 95% 以上

性能比较-吞吐量

Llama-3.1-8B

上下文3000,基于 H100 测试
ppinfer-chart-1

Batch size

ppinfer-chart-1

Batch size

性能比较-延迟

Llama-3.1-70B

上下文3000,基于 H100 测试
ppinfer-chart-1

Batch size

ppinfer-chart-1

Batch size

立即体验,开启 AI 应用构建之旅