搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏腾讯云服务器团队的专栏
TACO-LLM发布！助力大模型极致加速
本篇文章将介绍TACO-LLM的优化原理如果您希望了解更多产品合作信息 >> 欢迎点击链接联系我们 << TACO-LLM 应用场景 TACO-LLM适用于生成式语言模型的推理加速业务，可满足多种业务场景下推理提效的需求除了适配多种业务场景，TACO-LLM也兼容Hugging Face当前全部主流语言模型，无需模型转换，仅需指定模型名称及可自动加载并即刻体验TACO-LLM带来的极致性能优化。为了评估TACO-LLM的性能表现，我们使用TACO-LLM与业界性能十分优秀的两个大模型推理框架vLLM和TGI进行了性能对比测试。 TACO-LLM与业界框架对比-输出token延时图7. TACO-LLM与业界框架对比-吞吐测试数据显示： 1）token解码延时，TACO-LLM比vLLM低52.7%，比TGI低10.3%； 2）总吞吐，TACO-LLM比vLLM高42.8%，比TGI
2.5K30编辑于 2023-11-17
来自专栏腾讯云服务器团队的专栏
拯救你卡顿的DeepSeek！腾讯云上线 TACO 加速版，推理速度狂飙80%
腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」，推出DeepSeek-R1 32B TACO加速版环境！ TACO-LLM：专业级推理加速引擎腾讯云TACO-LLM（TencentCloud Accelerated Computing Optimization LLM）作为面向大语言模型的推理加速引擎，通过充分利用计算资源的并行计算能力通过三大核心能力重构效能标准：高易用，无缝迁移：TACO-LLM 设计实现了简单易用的接口，完全兼容业界开源 LLM 推理框架 vLLM。 ● 预训练数据集场景：使用 C4数据集来进行测试，相比于vLLM，TACO-LLM在预训练数据集场景中token吞吐平均提升 53% 。 ● 对话数据集场景：使用 ShareGPT_V3数据集来进行测试，相比于vLLM，TACO-LLM在对话类场景中token吞吐平均提升 66% 。
93310编辑于 2025-03-17
TACO-LLM推理加速方案：提升AI生成业务吞吐与资源利用率
针对推理场景，其TACO-LLM推理加速方案通过显存优化与计算优化提升效率。显存优化采用可复用定长缓存与AWQ量化技术，将单机支持参数规模提升38%，最高支持55B参数模型。量化性能提升：显著提高吞吐并突破资源限制 TACO-LLM方案在真实业务模型中验证了显著的性能增益：业务生文bt模型测试：在2并发请求下，TACO-LLM处理请求数达到1408个，对比原方案（752个在5并发与10并发场景下，原方案出现OOM（内存溢出）无法运行，而TACO-LLM分别处理了2305个和2163个请求，极大提高了业务吞吐能力。业务生文cy模型测试：在2并发请求下，TACO-LLM处理请求数为1923个，对比原方案（1317个）提升46.0%（来源：测试数据）。同样，在5/10并发时，原方案OOM，TACO-LLM稳定处理2757个和3129个请求。
8810编辑于 2026-05-31
腾讯云TACO-LLM为荣耀大模型推理提速：吞吐提升2倍，首Token延迟降低12.5倍
部署TACO-LLM推理加速引擎优化算力调度基于腾讯云TencentOS Server AI底座，腾讯云为荣耀部署了TACO-LLM大语言模型推理加速引擎。量化推理效能与多平台运行表现在荣耀实际业务场景中，TACO-LLM针对DeepSeek-R1满血版及专用模型进行了深度优化，具体量化指标如下： DeepSeek-R1满血版场景（对比荣耀原始线上业务） —— Pedro，北京（评论区用户）基于TencentOS Server的高性能AI基础设施腾讯云通过TencentOS Server AI底座结合TACO-LLM加速模块，为荣耀提供了从操作系统底层到模型推理层的全栈优化
9610编辑于 2026-05-30
腾讯云协同荣耀重构AI推理底座：大模型吞吐提升2倍的工程实践
部署TACO-LLM引擎重塑推理加速链路为解决高并发与低延迟的矛盾，荣耀基于腾讯云 TencentOS Server AI 底座，部署了 TACO-LLM 加速模块（大语言模型推理加速引擎）。交互场景定向加速（意图识别高频调用场景）：经 TACO-LLM 优化后，DeepSeek 推理速度在 A平台提升 70%，在 B平台提升 20%，最大程度缩短了推理耗时。 TACO-LLM 引擎不仅成倍压缩了关键的首Token响应指标，更大幅拉升了系统的整体吞吐极限，为荣耀在复杂多任务场景下提供了确定、高效的底层算力支撑。
8510编辑于 2026-05-30
腾讯云TACO-LLM加速模块助力荣耀AI推理吞吐提升2倍
部署TencentOS Server AI底座与TACO-LLM加速腾讯云为荣耀提供基于TencentOS Server AI底座的解决方案，集成TACO-LLM加速模块。实现性能指标显著优化在荣耀的实际应用中，TACO-LLM模块使DeepSeek推理速度在A平台提升70%，在B平台提升20%。 TACO-LLM与TACO-Train框架协同，覆盖推理与训练场景，为AI模型提供可持续的算力支持与能效管理。
14610编辑于 2026-05-01
腾讯云TACO-LLM加速引擎助力荣耀AI推理性能倍增
部署TACO-LLM加速模块优化推理流程腾讯云为荣耀提供了基于 TencentOS Server AI 底座的 TACO-LLM 大语言模型推理加速引擎。实现推理效率与系统稳定性的量化提升在荣耀的实际业务场景中（主要使用 DeepSeek 1.5@78% 和 DeepSeek 1.2@70% 模型），TACO-LLM模块带来显著性能改善： DeepSeek-R1 “TACO-LLM加速模块提升了推理效率和系统稳定性。” —— 腾讯云技术团队腾讯云AI底座的技术确定性价值腾讯云通过TencentOS Server AI底座的安全加固与性能优化，结合TACO-LLM加速引擎的针对性技术方案，为荣耀提供了高性能、高稳定的
10210编辑于 2026-05-30
荣耀基于TencentOS构建高性能AI底座，大模型吞吐提升2倍
部署底层加速模块与投机采样引擎荣耀依托腾讯云 TencentOS Server AI 底座，部署了 TACO-LLM加速模块，通过底层操作系统的优化支撑 AI 模型运行：引入「投机采样」机制： TACO-LLM 意图识别提速与推理平台性能跃升通过底层框架优化，荣耀的 AI 推理平台在多项核心业务指标上实现了显著优化（数据来源：腾讯云与荣耀联合业务数据）：意图识别响应速度： TACO-LLM 使 DeepSeek 通过底层框架榨取存量硬件算力极限在不增加服务器硬件资源的前提下，腾讯云通过 OS 层的深度定制（OS for AI）与推理框架（TACO-LLM）的结合，从系统内核到算力调度进行全局加固。
15210编辑于 2026-05-01
荣耀基于腾讯云TencentOS Server AI底座实现AI推理性能与稳定性提升
部署TACO-LLM加速模块与TencentOS Server AI底座腾讯云为荣耀提供针对性解决方案，基于TencentOS Server AI底座部署TACO-LLM加速模块，从技术与架构层面优化推理效率与系统稳定性： TACO-LLM加速模块采用「投机采样」技术，通过“大胆预测+快速修正”替代逐字计算推理，提升推理速度并优化GPU算力利用；针对交互类高频调用场景定向优化，在高性能GPU平台压缩推理耗时。 TencentOS Server AI底座整合多层能力：模型层：支持DeepSeek 70B/满血版等常用模型；算力监控：通过Prometheus框架监控GPU性能、LLM框架性能；推理框架：集成TACO-LLM 实现推理速度与稳定性量化提升应用后荣耀AI推理性能获显著改善，关键指标如下（数据来源：相关产品TencentOS Server AI、TACO-LLM加速模块）：意图识别场景响应速度：TACO-LLM 选择腾讯云的核心优势腾讯云方案直击荣耀痛点：通过TACO-LLM加速模块的投机采样与高频场景优化，结合TencentOS Server AI的底层OS支撑（算力监控、qGPU管理、智算节能等），在不增加服务器资源前提下
15110编辑于 2026-05-02
腾讯云AIGC全栈方案：通过推理加速、混布调度与合规管理优化大模型应用ROI
模型推理加速（TACO-LLM/Angel）显存优化：采用缓存定长+AWQ量化技术，支持单机最大 55B参数模型推理，参数规模支持能力增大 38%。 TACO-LLM推理加速性能（某LLM客户）基于业务生文模型测试（运行1800s，对比处理请求数）：测试指标原方案 +TACO-LLM 提升效果总吞吐对比 - - 比vLLM高42.8%，比TGI ，TACO-LLM可稳定运行 2并发 (cy模型) 1317 1923 请求数达原方案1.5倍 5并发 (cy模型) OOM 2757 原方案崩溃，TACO-LLM可稳定运行 10并发 (cy模型) OOM 3129 原方案崩溃，TACO-LLM可稳定运行 2. 确定性技术优势： TACO-LLM推理加速：在高并发场景下（5/10并发）避免OOM（内存溢出），将业务吞吐提升至原方案的 1.9倍。
10710编辑于 2026-05-31
CentOS停服替代与DeepSeek私有化部署：TencentOS Server与TACO-LLM技术实践
推理加速：集成 TACO-LLM 推理框架，与vLLM 100%兼容，支持DeepSeek全系列模型（1.5B至671B）。推理性能：使用 TACO-LLM 框架，DeepSeek-R1 70B模型吞吐性能提升 80%（对比vLLM，8并发下由65.43 token/s提升至323.73 token/s）；DeepSeek-R1
11510编辑于 2026-05-30
高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版
一、环境说明TACO-LLM（TencentCloud Accelerated Computing Optimization LLM），是腾讯云自研的一款面向大模型的推理框架，TACO-LLM默认集成在了 TencentOS Server AI中，相比其他开源框架，TACO-LLM具有更好的稳定性、安全性以及更高的性能，通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化，
38810编辑于 2025-03-10
我有大量GPU，怎么用？在线等，急！
最近，腾讯云推出专有云智算套件，集合了腾讯云高性能网络IHN（星脉网络）、高并发文件存储系统TurboFS、算力加速框架Taco-LLM等核心能力。腾讯星脉网络2.0来了//看计算（TACO-LLM）：模型推理速度提升2倍训练框架就像一张“蓝图”，可以指导GPU更高效完成任务。 Taco-LLM适配主流训练框架、开创混和序列并行模式、率先跑通FP8训练精度，并适配全部国产模型，能够为不同集群制定最优训练方案，让所有代次的GPU“应用尽用”。在模型推理时，Taco-LLM的预测采样方式也突破GPU自回归限制。即GPU不再每次只生成一个结果（Token），而是把多个结果交给目标大模型“验算”。为配合预测采样，Taco-LLM还改变了GPU的连续显存模式，采用分区（block）存放，并为历史结果分配“专用区”，避免了显存连续分配释放造成的资源浪费。
86510编辑于 2024-07-10
来自专栏腾讯云服务器团队的专栏
腾讯云异构计算平台全面支持Llama 3，助力一键部署、性能翻倍
更快部署 TACO 加速引擎全新升级，现已支持 Llama 3 在软件层面，腾讯云 TACO Kit 计算加速全新升级，推出 TACO-LLM 大语言模型推理加速引擎，用于提高大语言模型的推理效能。通过充分利用计算资源的并行能力，TACO-LLM 能够同时处理更多语言模型推理请求，已成功为多家客户提供了兼顾高吞吐和低时延的优化方案。而在实测数据中，TACO-LLM 的表现均优于其他方案，在相 GPU 硬件的前提下，推理吞吐性能最高提升 78%。全新 TACO-LLM 现已支持 Llama 3 系列模型，并已实现与高性能应用服务 HAI 或全新一代异构实例PNV5b的高效搭配使用，从而显著提升部署及推理效率，现已支持分布式推理、动态 Batching TACO-LLM 特性 Llama 3 在多个行业应用中表现优异，如智能客服提高解决率，内容创作提升创作质量，文本分析准确提取信息。
1.9K10编辑于 2024-04-25
构建高性能AI与全球化云底座，驱动消费电子行业智能化升级与全球业务拓展
腾讯云提供AI加速与全球一体化云架构解决方案通过TencentOS Server AI底座集成TACO-LLM加速模块，采用投机采样技术提升GPU算力利用率，显著优化大模型推理性能。 100+国家和地区，欧洲、中东、拉美市场实现业务增长突破（来源：荣耀、萤石合作数据）运维成本优化：公有云弹性架构降低运维风险，节省大量人力投入与基础设施成本（来源：vivo、红魔效益数据） "腾讯云TACO-LLM 让DeepSeek推理速度在A平台提升70%，模型运行更平稳，系统调度更顺畅" —— 荣耀AI平台技术负责人腾讯云技术差异化价值 AI性能优化能力：自研TACO-LLM加速模块实现推理延迟倍数级下降，
18210编辑于 2026-04-20
腾讯云AI大模型全信创解决方案：驱动证券期货业数智升级
减少应用层链路调用（来源：信创数据库章节）；信创操作系统（TencentOS Server AI）：AI原生OS通过qGPU虚拟化（内核态劫持，故障隔离强，支持容器共享）提升GPU利用率3-10倍，及TACO-LLM 数据严格基于原文）： GPU利用率提升3-10倍：通过qGPU虚拟化（内核态劫持设计，支持训练推理在离线混部、故障显存算力强隔离），打破GPU孤岛（来源：信创操作系统章节）；训推性能显著优化：TACO-LLM GPU，兼容AI+渲染、Local/Remote GPU，提升利用率3-10倍（来源：信创操作系统章节）； TACO加速框架：TACO Train（训练加速）、TACO Infer（推理加速）、TACO-LLM
27110编辑于 2026-05-01
异构算力统一管理：TCS平台实现GPU资源利用率提升与成本优化
推理性能加速：在DeepSeek-R1:70B模型场景下，相比vLLM框架，TACO-LLM推理引擎带来平均80%的性能提升（16并发从121.01 token/s提升至202.68 token/s；首Token延迟优化：在某头部手机制造厂商案例中，TACO-LLM采用投机采样技术，使TTFT（首Token延迟）P95响应时间最高降低6倍，端到端延迟降低100%；在SGLang场景下，TTFT P95 方案：基于TencentOS Server AI底座，部署TACO-LLM大模型推理加速引擎。
14300编辑于 2026-05-29
腾讯云智算套件：企业本地化全栈智算解决方案概要
推理性能：推理加速套件TACO-LLM可实现性能综合提升5-10倍（来源：方案优势-推理加速TACO-LLM）。可靠性：支持超100小时连续训练（来源：方案简介-高性能计算集群HCC）。推理加速TACO-LLM：采用Training-Free的预测采样技术提升解码速度，提供特色量化方案、prefill加速及独家70B+大模型极速优化方案。
10310编辑于 2026-05-30
腾讯云AI原生云：加速Agent落地的Infra解决方案与量化成效
：长期记忆与检索、私域数据中枢； Agent网关：模型服务&MCP/Tool接入、流量调度与安全防护；全链路安全与可观测：机密计算、日志服务、智能定位；高性能计算支撑：大语言模型加速（TACO-LLM 腾讯云的技术领先性与行业认可选择腾讯云的核心优势在于技术确定性与行业验证：自研技术矩阵：TACO-LLM/TACO-DIT推理加速引擎、HAI高性能推理集群、Cloud Mate智能运维体、OrcaTerm
43030编辑于 2026-04-19
报告基础信息
弹性调度技术提升资源利用率（腾讯TACO-LLM推理成本降44%-64%）。为什么选择腾讯云腾讯云在2025年Frost Radar™中创新指数排名第一、增长指数排名第二，核心优势包括：技术先进性：自研TACO-LLM推理框架吞吐性能达业界1.8-2.5倍，星脉网络（IHN
16310编辑于 2026-04-27

第 2 页第 3 页第 4 页

点击加载更多

TACO-LLM发布！助力大模型极致加速

拯救你卡顿的DeepSeek！腾讯云上线 TACO 加速版，推理速度狂飙80%

TACO-LLM推理加速方案：提升AI生成业务吞吐与资源利用率

腾讯云TACO-LLM为荣耀大模型推理提速：吞吐提升2倍，首Token延迟降低12.5倍

腾讯云协同荣耀重构AI推理底座：大模型吞吐提升2倍的工程实践

腾讯云TACO-LLM加速模块助力荣耀AI推理吞吐提升2倍

腾讯云TACO-LLM加速引擎助力荣耀AI推理性能倍增

荣耀基于TencentOS构建高性能AI底座，大模型吞吐提升2倍

荣耀基于腾讯云TencentOS Server AI底座实现AI推理性能与稳定性提升

腾讯云AIGC全栈方案：通过推理加速、混布调度与合规管理优化大模型应用ROI

CentOS停服替代与DeepSeek私有化部署：TencentOS Server与TACO-LLM技术实践

高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版

我有大量GPU，怎么用？在线等，急！

腾讯云异构计算平台全面支持Llama 3，助力一键部署、性能翻倍

构建高性能AI与全球化云底座，驱动消费电子行业智能化升级与全球业务拓展

腾讯云AI大模型全信创解决方案：驱动证券期货业数智升级

异构算力统一管理：TCS平台实现GPU资源利用率提升与成本优化

腾讯云智算套件：企业本地化全栈智算解决方案概要

腾讯云AI原生云：加速Agent落地的Infra解决方案与量化成效

报告基础信息

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐