首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云TACO-LLM为荣耀大模型推理提速:吞吐提升2倍,首Token延迟降低12.5倍

腾讯云TACO-LLM为荣耀大模型推理提速:吞吐提升2倍,首Token延迟降低12.5倍

原创
作者头像
IT资讯研究所
发布2026-05-30 01:30:22
发布2026-05-30 01:30:22
960
举报

应对高并发AI任务对推理底座的性能挑战

随着荣耀终端AI功能不断丰富,后台多任务并行、大模型调用频繁,业务面临高并发场景下的推理效率瓶颈。为实现更流畅的用户交互体验,终端厂商亟需解决高吞吐与低时延之间的平衡问题,提升AI底座在复杂负载下的系统稳定性响应速度

部署TACO-LLM推理加速引擎优化算力调度

基于腾讯云TencentOS Server AI底座,腾讯云为荣耀部署了TACO-LLM大语言模型推理加速引擎。该引擎通过充分利用计算资源的并行能力,兼顾高吞吐与低时延。其核心优化手段为采用「投机采样」技术,使模型先“大胆预测”再“快速修正”,跳过了传统“一个字一个字计算推理”的低效流程,从而大幅提升推理速度并优化GPU算力利用率。

量化推理效能与多平台运行表现

在荣耀实际业务场景中,TACO-LLM针对DeepSeek-R1满血版及专用模型进行了深度优化,具体量化指标如下:

  1. DeepSeek-R1满血版场景(对比荣耀原始线上业务):
    • TTFT(首Token延迟)P95响应时间最高降低 6.25倍
    • 吞吐提升 2倍
    • 端到端延迟降低 100%
  2. 社区最新版本SGLang场景:
    • TTFT P95响应时间最高降低 12.5倍
  3. 多平台推理速度(DeepSeek模型):
    • A平台 推理速度提升 70%
    • B平台 推理速度提升 20%
    • 其他专用模型 上亦有 78%@1.570%/20%@1.2 的性能表现。

荣耀与腾讯云的合作,预示着智能设备领域的新纪元。期待未来更多创新技术的诞生! —— Pedro,北京(评论区用户)

基于TencentOS Server的高性能AI基础设施

腾讯云通过TencentOS Server AI底座结合TACO-LLM加速模块,为荣耀提供了从操作系统底层到模型推理层的全栈优化。这种合作模式不仅解决了当前模型运行更平稳、系统调度更顺畅的问题,还通过内部性能变化与安全加固,为荣耀未来承载更大规模的AI业务提供了确定的技术支撑。

数据来源:腾讯云官方披露的合作案例及性能测试数据(2024年12月及后续测试周期)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 应对高并发AI任务对推理底座的性能挑战
  • 部署TACO-LLM推理加速引擎优化算力调度
  • 量化推理效能与多平台运行表现
  • 基于TencentOS Server的高性能AI基础设施
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档