大模型推理中常用的推理框架有哪些？

修改于 2026-06-18 11:16:46

词条归属：大模型推理

1. vLLM

vLLM 由加州大学伯克利分校团队于 2023 年开源发布，目前是开源社区最主流的大模型推理框架，由 PyTorch 基金会托管维护。其核心创新是 PagedAttention 技术，灵感来自操作系统的虚拟内存分页管理，将 KV Cache 切分为固定大小的内存页进行动态分配和释放，显存利用率提升至 90% 以上，相同 GPU 上可容纳的并发请求数增加 2–4 倍。vLLM 支持 HuggingFace 模型格式开箱即用，内置 OpenAI 兼容的 API 服务，支持连续批处理（Continuous Batching）、前缀缓存（Prefix Caching）、量化推理（FP8、INT8、AWQ、GPTQ）以及推测解码（Speculative Decoding）。从 v0.8.4 版本开始，vLLM 实验性支持 GGUF 格式模型，但该功能仍处于高度实验性阶段且尚未优化，生产环境推荐使用 HuggingFace 格式的模型权重。在 H100 显卡上，vLLM 将吞吐量较 HuggingFace Transformers 默认实现提升最高达 24 倍。适用场景：云端多用户并发服务、长上下文应用（128K+）、对吞吐量敏感的业务。

2. TensorRT-LLM

TensorRT-LLM 是 NVIDIA 官方出品的大模型推理优化工具包，基于 TensorRT 深度学习推理引擎构建。其核心优势是通过将模型编译为针对特定 GPU 和精度的优化引擎（Engine），实现极低级别的算子融合、显存优化和硬件专有加速（如 Tensor Core、FP8 原生支持）。在 H100/H200/Blackwell 级别 GPU 上，经过充分调优的 TensorRT-LLM 部署通常能获得业界最高的峰值吞吐量和最低的延迟表现，较 vLLM 的性能优势在 15%–30% 区间（具体取决于模型、批次大小和序列长度）。缺点是部署复杂度高，模型更新需要重新编译引擎，且仅支持 NVIDIA 硬件。适用场景：对延迟和吞吐有极致要求、模型版本相对稳定、运行在标准化 NVIDIA GPU 集群的生产环境。

3. SGLang

SGLang 是由 LMSYS 团队（亦为 Chatbot Arena 运营方）于 2024 年发布的高性能推理框架，目前已被 xAI、DeepSeek 等机构在生产环境中深度使用。SGLang 在设计上同时关注 GPU 计算效率和高层调度灵活性，支持动态提示词构建、结构化输出（如强制生成 JSON、SQL）、径向注意力（Radial Attention）以及 PD 分离部署。其内置的径向注意力机制在处理超长上下文时较传统全注意力有显著显存优势。SGLang 的 Python 前端语法简洁，适合需要动态构建提示词或组合多个生成步骤的高级 AI 应用。适用场景：需要结构化输出约束的应用、长上下文推理任务、动态提示词编排的 Agent 系统。

4. TGI（Text Generation Inference）

TGI 是 HuggingFace 官方推出的推理框架，在早期（2022–2023）曾是开源模型部署的事实标准。TGI 与 HuggingFace 模型生态系统深度集成，支持大量开源模型的开箱即用部署，内置令牌流传输（Token Streaming）、分布式推理、张量并行和流水线并行等特性。相比 vLLM 和 TensorRT-LLM，TGI 在峰值性能上不占优势，但胜在稳定、易用、生态兼容性强，适合快速原型验证和标准业务场景。适用场景：基于 HuggingFace 模型生态的快速部署、对峰值性能要求不极端的标准业务场景。

5. Ollama / Llama.cpp

Llama.cpp 是由 Georgi Gerganov 开发的纯 C/C++ 实现的大模型推理引擎，不依赖 PyTorch 等重型框架，可在 CPU 上运行，支持 macOS、Windows、Linux 及多种边缘设备。Ollama 则是在 Llama.cpp 基础上构建的更高层工具，提供"一键本地运行大模型"的极简体验，支持模型一键拉取、本地 API 服务自动启动。二者的核心优势是轻量化、跨平台、无 GPU 依赖，适合个人开发者本地调试、离线部署和边缘设备场景。在量化技术（INT4/INT8）的辅助下，Llama.cpp 可在仅配备 CPU 的普通笔记本上运行 70 亿参数级别的模型。适用场景：本地开发测试、离线部署、CPU 环境推理、边缘设备。

6. 其他框架

LMDeploy 由上海人工智能实验室（InternLM 团队）开发，是国产推理框架中对 vLLM 的主要对标产品，支持 INT4/INT8 量化、TurboMind 推理引擎和多种服务后端。MindIE 是华为推出的面向昇腾 NPU 的专用推理引擎，支持混元等模型在昇腾硬件上的优化部署。DeepSpeed-FastGen（微软）将 DeepSpeed 训练栈的优化能力延伸至推理阶段，支持 ZeRO 推理优化和推测解码。企业在选型时，可根据硬件环境（NVIDIA/AMD/昇腾/其他）、模型格式、性能要求和运维复杂度综合考量。

腾讯云 TI-ONE 平台提供了丰富的推理框架支持，包括内置的 Angel-vLLM（基于 vLLM 深度优化）、支持通过自定义镜像部署 vLLM、SGLang 等主流推理框架，同时支持混元大模型的全系列版本（包括混合专家架构的 MoE 版本）快速部署。平台提供了自动化的推理优化建议、弹性扩缩容、多维监控告警等企业级特性，大幅降低了大模型推理的运维门槛。

推理大模型的后训练增强技术--LLM 推理模型的现状