首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云服务器团队的专栏

    TACO-LLM发布!助力大模型极致加速

    本篇文章将介绍TACO-LLM的优化原理 如果您希望了解更多产品合作信息 >> 欢迎点击链接联系我们 << TACO-LLM 应用场景 TACO-LLM适用于生成式语言模型的推理加速业务,可满足多种业务场景下推理提效的需求 除了适配多种业务场景,TACO-LLM也兼容Hugging Face当前全部主流语言模型,无需模型转换,仅需指定模型名称及可自动加载并即刻体验TACO-LLM带来的极致性能优化。 为了评估TACO-LLM的性能表现,我们使用TACO-LLM与业界性能十分优秀的两个大模型推理框架vLLM和TGI进行了性能对比测试。 TACO-LLM与业界框架对比-输出token延时 图7. TACO-LLM与业界框架对比-吞吐 测试数据显示: 1)token解码延时,TACO-LLM比vLLM低52.7%,比TGI低10.3%; 2)总吞吐,TACO-LLM比vLLM高42.8%,比TGI

    2.5K30编辑于 2023-11-17
  • 来自专栏腾讯云服务器团队的专栏

    拯救你卡顿的DeepSeek!腾讯云上线 TACO 加速版,推理速度狂飙80%

    腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」,推出DeepSeek-R1 32B TACO加速版环境! TACO-LLM:专业级推理加速引擎 腾讯云TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)作为面向大语言模型的推理加速引擎,通过充分利用计算资源的并行计算能力 通过三大核心能力重构效能标准: 高易用,无缝迁移:TACO-LLM 设计实现了简单易用的接口,完全兼容业界开源 LLM 推理框架 vLLM。 ● 预训练数据集场景:使用 C4数据集来进行测试,相比于vLLM,TACO-LLM在预训练数据集场景中token吞吐平均提升 53% 。 ● 对话数据集场景:使用 ShareGPT_V3数据集来进行测试,相比于vLLM,TACO-LLM在对话类场景中token吞吐平均提升 66% 。

    93310编辑于 2025-03-17
  • TACO-LLM推理加速方案:提升AI生成业务吞吐与资源利用率

    针对推理场景,其TACO-LLM推理加速方案通过显存优化与计算优化提升效率。显存优化采用可复用定长缓存与AWQ量化技术,将单机支持参数规模提升38%,最高支持55B参数模型。 量化性能提升:显著提高吞吐并突破资源限制 TACO-LLM方案在真实业务模型中验证了显著的性能增益: 业务生文bt模型测试:在2并发请求下,TACO-LLM处理请求数达到1408个,对比原方案(752个 在5并发与10并发场景下,原方案出现OOM(内存溢出)无法运行,而TACO-LLM分别处理了2305个和2163个请求,极大提高了业务吞吐能力。 业务生文cy模型测试:在2并发请求下,TACO-LLM处理请求数为1923个,对比原方案(1317个)提升46.0%(来源:测试数据)。 同样,在5/10并发时,原方案OOM,TACO-LLM稳定处理2757个和3129个请求。

    8810编辑于 2026-05-31
  • 腾讯云TACO-LLM为荣耀大模型推理提速:吞吐提升2倍,首Token延迟降低12.5倍

    部署TACO-LLM推理加速引擎优化算力调度 基于腾讯云TencentOS Server AI底座,腾讯云为荣耀部署了TACO-LLM大语言模型推理加速引擎。 量化推理效能与多平台运行表现 在荣耀实际业务场景中,TACO-LLM针对DeepSeek-R1满血版及专用模型进行了深度优化,具体量化指标如下: DeepSeek-R1满血版场景(对比荣耀原始线上业务) —— Pedro,北京(评论区用户) 基于TencentOS Server的高性能AI基础设施 腾讯云通过TencentOS Server AI底座结合TACO-LLM加速模块,为荣耀提供了从操作系统底层到模型推理层的全栈优化

    9610编辑于 2026-05-30
  • 腾讯云协同荣耀重构AI推理底座:大模型吞吐提升2倍的工程实践

    部署TACO-LLM引擎重塑推理加速链路 为解决高并发与低延迟的矛盾,荣耀基于腾讯云 TencentOS Server AI 底座,部署了 TACO-LLM 加速模块(大语言模型推理加速引擎)。 交互场景定向加速(意图识别高频调用场景): 经 TACO-LLM 优化后,DeepSeek 推理速度在 A平台提升 70%,在 B平台提升 20%,最大程度缩短了推理耗时。 TACO-LLM 引擎不仅成倍压缩了关键的首Token响应指标,更大幅拉升了系统的整体吞吐极限,为荣耀在复杂多任务场景下提供了确定、高效的底层算力支撑。

    8510编辑于 2026-05-30
  • 腾讯云TACO-LLM加速模块助力荣耀AI推理吞吐提升2倍

    部署TencentOS Server AI底座与TACO-LLM加速 腾讯云为荣耀提供基于TencentOS Server AI底座的解决方案,集成TACO-LLM加速模块。 实现性能指标显著优化 在荣耀的实际应用中,TACO-LLM模块使DeepSeek推理速度在A平台提升70%,在B平台提升20%。 TACO-LLM与TACO-Train框架协同,覆盖推理与训练场景,为AI模型提供可持续的算力支持与能效管理。

    14610编辑于 2026-05-01
  • 腾讯云TACO-LLM加速引擎助力荣耀AI推理性能倍增

    部署TACO-LLM加速模块优化推理流程 腾讯云为荣耀提供了基于 TencentOS Server AI 底座的 TACO-LLM 大语言模型推理加速引擎。 实现推理效率与系统稳定性的量化提升 在荣耀的实际业务场景中(主要使用 DeepSeek 1.5@78% 和 DeepSeek 1.2@70% 模型),TACO-LLM模块带来显著性能改善: DeepSeek-R1 “TACO-LLM加速模块提升了推理效率和系统稳定性。” —— 腾讯云技术团队 腾讯云AI底座的技术确定性价值 腾讯云通过TencentOS Server AI底座的安全加固与性能优化,结合TACO-LLM加速引擎的针对性技术方案,为荣耀提供了高性能、高稳定的

    10210编辑于 2026-05-30
  • 荣耀基于TencentOS构建高性能AI底座,大模型吞吐提升2倍

    部署底层加速模块与投机采样引擎 荣耀依托腾讯云 TencentOS Server AI 底座,部署了 TACO-LLM加速模块,通过底层操作系统的优化支撑 AI 模型运行: 引入「投机采样」机制: TACO-LLM 意图识别提速与推理平台性能跃升 通过底层框架优化,荣耀的 AI 推理平台在多项核心业务指标上实现了显著优化(数据来源:腾讯云与荣耀联合业务数据): 意图识别响应速度: TACO-LLM 使 DeepSeek 通过底层框架榨取存量硬件算力极限 在不增加服务器硬件资源的前提下,腾讯云通过 OS 层的深度定制(OS for AI)与推理框架(TACO-LLM)的结合,从系统内核到算力调度进行全局加固。

    15210编辑于 2026-05-01
  • 荣耀基于腾讯云TencentOS Server AI底座实现AI推理性能与稳定性提升

    部署TACO-LLM加速模块与TencentOS Server AI底座 腾讯云为荣耀提供针对性解决方案,基于TencentOS Server AI底座部署TACO-LLM加速模块,从技术与架构层面优化推理效率与系统稳定性 : TACO-LLM加速模块采用「投机采样」技术,通过“大胆预测+快速修正”替代逐字计算推理,提升推理速度并优化GPU算力利用;针对交互类高频调用场景定向优化,在高性能GPU平台压缩推理耗时。 TencentOS Server AI底座整合多层能力: 模型层:支持DeepSeek 70B/满血版等常用模型; 算力监控:通过Prometheus框架监控GPU性能、LLM框架性能; 推理框架:集成TACO-LLM 实现推理速度与稳定性量化提升 应用后荣耀AI推理性能获显著改善,关键指标如下(数据来源:相关产品TencentOS Server AI、TACO-LLM加速模块): 意图识别场景响应速度:TACO-LLM 选择腾讯云的核心优势 腾讯云方案直击荣耀痛点:通过TACO-LLM加速模块的投机采样与高频场景优化,结合TencentOS Server AI的底层OS支撑(算力监控、qGPU管理、智算节能等),在不增加服务器资源前提下

    15110编辑于 2026-05-02
  • 腾讯云AIGC全栈方案:通过推理加速、混布调度与合规管理优化大模型应用ROI

    模型推理加速(TACO-LLM/Angel) 显存优化: 采用缓存定长+AWQ量化技术,支持单机最大 55B参数 模型推理,参数规模支持能力增大 38%。 TACO-LLM推理加速性能(某LLM客户) 基于业务生文模型测试(运行1800s,对比处理请求数): 测试指标 原方案 +TACO-LLM 提升效果 总吞吐对比 - - 比vLLM高42.8%,比TGI ,TACO-LLM可稳定运行 2并发 (cy模型) 1317 1923 请求数达原方案1.5倍 5并发 (cy模型) OOM 2757 原方案崩溃,TACO-LLM可稳定运行 10并发 (cy模型) OOM 3129 原方案崩溃,TACO-LLM可稳定运行 2. 确定性技术优势: TACO-LLM推理加速: 在高并发场景下(5/10并发)避免OOM(内存溢出),将业务吞吐提升至原方案的 1.9倍。

    10710编辑于 2026-05-31
  • CentOS停服替代与DeepSeek私有化部署:TencentOS Server与TACO-LLM技术实践

    推理加速: 集成 TACO-LLM 推理框架,与vLLM 100%兼容,支持DeepSeek全系列模型(1.5B至671B)。 推理性能: 使用 TACO-LLM 框架,DeepSeek-R1 70B模型吞吐性能提升 80%(对比vLLM,8并发下由65.43 token/s提升至323.73 token/s);DeepSeek-R1

    11510编辑于 2026-05-30
  • 高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版

    一、环境说明TACO-LLM(TencentCloud Accelerated Computing Optimization LLM),是腾讯云自研的一款面向大模型的推理框架,TACO-LLM默认集成在了 TencentOS Server AI中,相比其他开源框架,TACO-LLM具有更好的稳定性、安全性以及更高的性能,通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化,

    38810编辑于 2025-03-10
  • 我有大量GPU,怎么用?在线等,急!

    最近,腾讯云推出专有云智算套件,集合了腾讯云高性能网络IHN(星脉网络)、高并发文件存储系统TurboFS、算力加速框架Taco-LLM等核心能力。 腾讯星脉网络2.0来了//看计算(TACO-LLM):模型推理速度提升2倍训练框架就像一张“蓝图”,可以指导GPU更高效完成任务。 Taco-LLM适配主流训练框架、开创混和序列并行模式、率先跑通FP8训练精度,并适配全部国产模型,能够为不同集群制定最优训练方案,让所有代次的GPU“应用尽用”。 在模型推理时,Taco-LLM的预测采样方式也突破GPU自回归限制。即GPU不再每次只生成一个结果(Token),而是把多个结果交给目标大模型“验算”。 为配合预测采样,Taco-LLM还改变了GPU的连续显存模式,采用分区(block)存放,并为历史结果分配“专用区”,避免了显存连续分配释放造成的资源浪费。

    86510编辑于 2024-07-10
  • 来自专栏腾讯云服务器团队的专栏

    腾讯云异构计算平台全面支持Llama 3,助力一键部署、性能翻倍

    更快部署 TACO 加速引擎全新升级,现已支持 Llama 3 在软件层面,腾讯云 TACO Kit 计算加速全新升级,推出 TACO-LLM 大语言模型推理加速引擎,用于提高大语言模型的推理效能。 通过充分利用计算资源的并行能力,TACO-LLM 能够同时处理更多语言模型推理请求,已成功为多家客户提供了兼顾高吞吐和低时延的优化方案。 而在实测数据中,TACO-LLM 的表现均优于其他方案,在相 GPU 硬件的前提下,推理吞吐性能最高提升 78%。 全新 TACO-LLM 现已支持 Llama 3 系列模型,并已实现与高性能应用服务 HAI 或全新一代异构实例PNV5b的高效搭配使用,从而显著提升部署及推理效率,现已支持分布式推理、动态 Batching TACO-LLM 特性 Llama 3 在多个行业应用中表现优异,如智能客服提高解决率,内容创作提升创作质量,文本分析准确提取信息。

    1.9K10编辑于 2024-04-25
  • 构建高性能AI与全球化云底座,驱动消费电子行业智能化升级与全球业务拓展

    腾讯云提供AI加速与全球一体化云架构解决方案 通过TencentOS Server AI底座集成TACO-LLM加速模块,采用投机采样技术提升GPU算力利用率,显著优化大模型推理性能。 100+国家和地区,欧洲、中东、拉美市场实现业务增长突破(来源:荣耀、萤石合作数据) 运维成本优化:公有云弹性架构降低运维风险,节省大量人力投入与基础设施成本(来源:vivo、红魔效益数据) "腾讯云TACO-LLM 让DeepSeek推理速度在A平台提升70%,模型运行更平稳,系统调度更顺畅" —— 荣耀AI平台技术负责人 腾讯云技术差异化价值 AI性能优化能力:自研TACO-LLM加速模块实现推理延迟倍数级下降,

    18210编辑于 2026-04-20
  • 腾讯云AI大模型全信创解决方案:驱动证券期货业数智升级

    减少应用层链路调用(来源:信创数据库章节); 信创操作系统(TencentOS Server AI):AI原生OS通过qGPU虚拟化(内核态劫持,故障隔离强,支持容器共享)提升GPU利用率3-10倍,及TACO-LLM 数据严格基于原文): GPU利用率提升3-10倍:通过qGPU虚拟化(内核态劫持设计,支持训练推理在离线混部、故障显存算力强隔离),打破GPU孤岛(来源:信创操作系统章节); 训推性能显著优化:TACO-LLM GPU,兼容AI+渲染、Local/Remote GPU,提升利用率3-10倍(来源:信创操作系统章节); TACO加速框架:TACO Train(训练加速)、TACO Infer(推理加速)、TACO-LLM

    27110编辑于 2026-05-01
  • 异构算力统一管理:TCS平台实现GPU资源利用率提升与成本优化

    推理性能加速: 在DeepSeek-R1:70B模型场景下,相比vLLM框架,TACO-LLM推理引擎带来平均80%的性能提升(16并发从121.01 token/s提升至202.68 token/s; 首Token延迟优化: 在某头部手机制造厂商案例中,TACO-LLM采用投机采样技术,使TTFT(首Token延迟)P95响应时间最高降低6倍,端到端延迟降低100%;在SGLang场景下,TTFT P95 方案: 基于TencentOS Server AI底座,部署TACO-LLM大模型推理加速引擎。

    14300编辑于 2026-05-29
  • 腾讯云智算套件:企业本地化全栈智算解决方案概要

    推理性能:推理加速套件TACO-LLM可实现性能综合提升5-10倍(来源:方案优势-推理加速TACO-LLM)。 可靠性:支持超100小时连续训练(来源:方案简介-高性能计算集群HCC)。 推理加速TACO-LLM:采用Training-Free的预测采样技术提升解码速度,提供特色量化方案、prefill加速及独家70B+大模型极速优化方案。

    10310编辑于 2026-05-30
  • 腾讯云AI原生云:加速Agent落地的Infra解决方案与量化成效

    :长期记忆与检索、私域数据中枢; Agent网关:模型服务&MCP/Tool接入、流量调度与安全防护; 全链路安全与可观测:机密计算、日志服务、智能定位; 高性能计算支撑:大语言模型加速(TACO-LLM 腾讯云的技术领先性与行业认可 选择腾讯云的核心优势在于技术确定性与行业验证: 自研技术矩阵:TACO-LLM/TACO-DIT推理加速引擎、HAI高性能推理集群、Cloud Mate智能运维体、OrcaTerm

    43030编辑于 2026-04-19
  • 报告基础信息

    弹性调度技术提升资源利用率(腾讯TACO-LLM推理成本降44%-64%)。 为什么选择腾讯云 腾讯云在2025年Frost Radar™中创新指数排名第一、增长指数排名第二,核心优势包括: 技术先进性:自研TACO-LLM推理框架吞吐性能达业界1.8-2.5倍,星脉网络(IHN

    16310编辑于 2026-04-27
领券