PPInfer为 LLM 推理提供卓越的性能
为 LLM 提供推理加速服务,实现显著的成本优势
PPInfer 核心优势
PPInfer 是派欧算力云基于 vLLM 进行二次开发和深度优化的推理引擎。在常规的推理加速技术之上,自研全链路 FP8 量化、KV Cache 稀疏压缩、投机采样等技术,实现 LLM 推理性能显著提升
延迟降低 2.5 倍
与官方 vLLM 相比,自研的 ppinfer 实现 2.5 倍 以上延迟优化
吞吐提升 3.5 倍
Llama-3.1-8B 模型在 ppinfer 上,无精度损失的情况下达到 260 tokens/second 的输出速度,与官方 vLLM 相比,吞吐提升 3.5 倍
推理成本降低 95%
与 OpenAI GPT-4o 相比,Llama-3.1-70B 模型为例,推理价格下降 95% 以上
性能比较-吞吐量
Llama-3.1-8B
上下文3000,基于 H100 测试
Batch size

Batch size
性能比较-延迟
Llama-3.1-70B
上下文3000,基于 H100 测试
Batch size

Batch size