不再显示

PPInfer为 LLM 推理提供卓越的性能

为 LLM 提供推理加速服务，实现显著的成本优势

PPInfer 核心优势

PPInfer 是派欧算力云基于 vLLM 进行二次开发和深度优化的推理引擎。在常规的推理加速技术之上，自研全链路 FP8 量化、KV Cache 稀疏压缩、投机采样等技术，实现 LLM 推理性能显著提升

延迟降低 2.5 倍

与官方 vLLM 相比，自研的 ppinfer 实现 2.5 倍以上延迟优化

吞吐提升 3.5 倍

Llama-3.1-8B 模型在 ppinfer 上，无精度损失的情况下达到 260 tokens/second 的输出速度，与官方 vLLM 相比，吞吐提升 3.5 倍

推理成本降低 95%

与 OpenAI GPT-4o 相比，Llama-3.1-70B 模型为例，推理价格下降 95% 以上

Llama-3.1-8B

上下文3000，基于 H100 测试

Batch size

Llama-3.1-70B

上下文3000，基于 H100 测试

Batch size