打造算存网数一体的高性能智算软硬协同方案 为破解上述产业困境,腾讯云推出算存网数一体的云原生智算解决方案,通过“一云多芯、软硬协同”的模式,提供涵盖公有云、专有云(CDZ/CDC/TCE/TCS)在内的多形态灵活部署底座 赋能头部大模型企业实现亿级降本与极致维保 在实际客户应用中,该智算底座有效解决了从基础设施投资到模型合规备案的端到端业务痛点: 元象 XVERSE(大模型厂商): 借助腾讯云提供的GPU高性能计算集群 智谱AI(AI大模型独角兽): 在腾讯云底座支持下,模型训练集群效率大幅跃升,提升幅度达3.23倍。 实现极高的运维保障标准,GPU服务器故障可在5分钟内自动恢复。 全球化的资源调配网络: 智算服务与资源遍布全球21个国家,拥有58个可用区,支持本地部署。 市场的高占有率与业务验证: 已服务100,000+客户,覆盖互联网、金融、AGI教育等15+个行业。 目前,90%的国内头部大模型厂商(如美团、快手、知乎、小红书、蔚来等)首选该智算底座。 (数据来源:腾讯云智算解决方案官方发布材料)
此起彼伏的高潮,潜藏着这样的逻辑:面对数据总量每年翻5~10倍的指数级增长,数据的采集、标注、分析及深度挖掘自然成为首要任务;而大数据行至中局,算力不足的矛盾愈发突出,AI服务器、智算中心等算力基础设施的升级迫在眉睫 智算生态背景下的大模型突破 近几年来,伴随大数据、AI、物联网等新兴技术的协同发展,数字化与智能化的结合更为紧密,“数智化”、“智慧计算”等提法尽管来源不同,内涵和外延也略有差别,但其核心所指殊途同归。 浪潮信息副总裁、AI&HPC产品线总经理刘军 接受《IT创事记》采访时,浪潮信息副总裁、AI&HPC产品线总经理刘军表示:“智算呈现多元化、巨量化、生态化的发展趋势,平台创新和开放生态是算力高效释放的核心 据了解,“源1.0”开源开放计划的合作对象主要包括大学和科研机构的人工智能研究团队、各地智算中心和元脑生态合作伙伴。 从更广阔的视角来看,“源1.0”大幅降低巨量模型研究和应用的门槛,有望催生算法基础设施变革,促进AI产业化和产业AI化,助力千行百业抵达智算盛开的彼岸。
部署端到端云智算与数据存储引擎 为解决算力与存储解耦带来的效率损耗,腾讯云构建了覆盖“数据采集、预处理、算法训练、仿真测试、OTA升级”五大阶段的智算服务矩阵: 全栈自研vRDMA网络: 无需额外网卡硬件成本 Tencent Cloud Data Platform(新一代存储底座): COS对象存储 (YottaStore): 提供12个9的数据可靠性,原生多AZ架构支持数据自动均衡与过载保护。 释放算力潜能与量化研发降本指标 基于上述技术架构的落地,企业研发效能与运维成本(Ops Cost)得到具体量化改善,核心业务指标显著提升: 算力成本大幅削减: 云函数SCF按毫秒级精确计费,最高节省超70% 的数据预处理成本;vRDMA多机互联技术在实现集群算力近无损扩展(扩展比达98%)的同时,节省20%的业务训练成本。 落地车企数据合规与海量模型训练实战 通过构建定制化解决方案,腾讯云智算底座已在多家头部车企的核心业务流中完成验证: 实战案例一:某头部车企百万级车辆数据合规脱敏 业务冲突: 应对649.5Gbps的数据峰值吞吐
应对AI算力瓶颈与成本挑战 随着大模型训练与AI应用复杂度激增,企业普遍面临算力供给不稳定、大规模训练效率低下、基础设施投入高昂以及跨平台部署困难等核心挑战。 传统计算架构难以满足千亿级参数模型对算力、网络和存储的协同性能要求,成为制约AI生产力释放的关键瓶颈。 构建算存网数一体化的高性能智算底座 腾讯云智算解决方案通过整合自研硬件与软件栈,提供算力、存储、网络与数据服务深度融合的一体化基础设施。 智谱AI:提升集群效率与快速故障恢复 腾讯云为智谱AI提供的高性能计算集群实现模型训练集群效率提升3.23倍。通过自动化运维保障,GPU服务器故障至自动恢复时间控制在5分钟内,保障训练任务连续性。 腾讯云的技术确定性与行业验证 腾讯云智算服务覆盖全球21个国家、58个可用区,已成为90%国内头部大模型厂商的首选智算底座,累计服务超10万客户,涵盖互联网、金融、自动驾驶等15+行业。
来源:腾讯云(周斌,腾讯安全总经理) 一、 产品定位与核心亮点 腾讯云构建了以 “一云多芯” 为核心的智算产品矩阵,并辅以全链路的AI安全解决方案。 核心差异化卖点: 算力底座: 千卡集群训练性能扩展比高达 96%,实测性能高于友商 30%+;硬件资源利用率达 99%+。 功能框架 智算底座: 高性能计算集群(HCC)、高性能计算服务(HAI)、GPU云服务器、裸金属云服务(CBM)。 米哈游 (müHoYo TECH OTAKUS SAVE THE WORLD) 背景: 作为头部游戏科技公司,对高性能算力底座有极高要求,需支持大规模AI应用开发。 解决方案: 采用腾讯云全链路智算产品矩阵。 成效: 成为腾讯云智算底座的客户代表,验证了产品在高负载、大规模场景下的稳定性与性能。 2.
应对智能汽车数据洪流与算力瓶颈 随着自动驾驶级别提升至L4,单车数据产生量激增至1.6TB/小时(来源:腾讯云技术图表),智能汽车行业面临数据体量指数级增长带来的三大挑战:数据采集传输需健壮网络、100PB 传统基础设施难以支撑闭环迭代,成为智驾能力提升的核心瓶颈。 构建高性价比数据加速与存储方案 腾讯云推出智算解决方案,聚焦数据预处理与训练环节:自研vRDMA网络实现200Gbps多机互联,无需额外网卡硬件;GooseFS 2.0通过缓存算法优化与元数据架构升级, 提升缓存效率与集群OPS能力10倍(来源:GooseFS性能图表);COS对象存储提供12个9的数据可靠性,单集群支持百EB级文件管理,形成统一数据湖底座。 腾讯云技术领先性支撑智能出行升级 腾讯云智算底座获Gartner生成式AI基础设施亚太厂商未来潜力第一(来源:Gartner 2025报告),其技术优势体现在三方面:硬件层采用星脉网络(3.2Tbps
构建“算存网数安”一体化的智算生态 为解决上述痛点,腾讯云通过“一云多芯、软硬协同”的架构,提供全面覆盖算力、存储、网络、数据与安全的高性能智算底座: 计算编排与基础架构 (HCC): 采用自研星星海AI 通过SDHN实现网络故障无感知的硬件故障隔离,支持qGPU对单卡进行5%超细粒度算力切分隔离。 量化应用成效与研发效率提升 基于上述软硬协同的技术底座,腾讯云智算方案在核心运维与业务指标上实现了显著的量化提升: 部署与运维效率: 基于服务内外部客户的经验沉淀,设备到位到开始训练的时间由 30天缩短至 业务落地与行业实践解析 在严苛的工业级场景中,腾讯云智算底座已成功转化为客户的实际业务投资回报: 客户A(自动驾驶训练): 依托TACO Kit的自动驾驶模型编译优化及集合通讯优化能力,在代码无变更的前提下 客户B(推荐系统训练): 通过底座性能调优,助力客户使单个Step的训练耗时从初始的约16秒断崖式下降到 0.42秒。整体性能优化达 40+倍,计算运营成本降低高达 100%+。
固定算力绑定期导致资源闲置严重 通信与存储性能瓶颈:多GPU训练中通信开销占比高达50%,传统以太网利用率仅35-40%,且0.1%丢包率即可导致30-50%算力损失;多模态训练中数据加载耗时占训练链路 数据为非结构化数据,跨模态对齐技术不成熟,向量化检索一致性面临挑战 安全风险突出:涵盖数据泄露、恶意攻击、内容失控及基础设施破坏等多维度威胁(来源:腾讯金融云邓锡文公开演讲材料) 腾讯云全栈式AI数智底座技术架构 腾讯云基于自身超700个应用日均2亿次调用的混元大模型实践,构建算存网数一体解决方案: 算力层:高性能计算集群HCC支持超300小时连续训练,通过qGPU容器共享实现5%超细粒度切分,故障完全隔离 2025技术白皮书) 量化效能提升验证实际业务价值 应用腾讯云AI底座后实现多项关键指标突破: 训练效率:自研TACO Kit+加速库使AI大模型训练性能提升40%,推理性能提升5倍 资源利用: 级带宽缩短模型分发时间90% 检索性能:向量数据库优化GPU处理速率,向量化效率提升3倍以上,数据检索时间降低50%(来源:腾讯云公开技术指标) 头部金融机构应用案例实证 美团、快手、小红书:采用腾讯云智算套件处理大规模训练和推理场景
应对数字化转型与国产替代的双重挑战 在复杂国际形势下,企业IT建设面临双重挑战:一方面需加速信息技术融合创新生态的全栈国产替代,另一方面需提升平台开放性以支持大模型时代的AI算力调度能力。 提供全栈自主创新的云平台解决方案 腾讯国产智算云方案构建了覆盖IaaS+PaaS+DaaS+TBaaS的全栈平台。 在某股份制银行项目中,TCE智算方案实现了NV和昇腾GPU的一云多芯混部,为AI平台提供云原生容器服务和高性能计算集群。 价值:完成云边协同综合示范平台建设,为调度业务提供高性能、高可靠的基础底座。 腾讯云的技术确定性 选择腾讯国产智算云的核心优势在于: 架构确定性:采用与公有云统一的技术架构,确保能力持续同步更新。
第一章:AI基础设施的算力瓶颈与运维挑战 在普惠AI浪潮下,企业面临从科研探索向规模化商业落地的转型。当前行业核心痛点集中在算力集群的稳定性不足、训练启动周期过长以及数据流转中的安全合规风险。 第二章:构建算存网数安一体的高性能AI智算底座 腾讯云通过腾讯云智算2.0升级,提供覆盖算力、存储、网络、数据、安全的全栈解决方案,并支持多形态部署。 2.2 多形态分布式部署 支持公有云、分布式云(CDC/CDZ)、专有云(TCE)及云原生(TCS)底座,实现1:1复刻公有云能力,满足客户IDC机房部署与多租户隔离需求。 认证来源: 入选中国电子技术标准化研究院《算力服务产业图谱(2024年)》及《算力服务产品名录(2024年)》,获评2024年人工智能先锋案例“技术底座”。 标准制定: 担任全国智能计算标准化工作组算力互联互通研究组(SAC/SWG32/SG7)成员单位。 5.2 技术演进与资质 全栈自研: 拥有自研星星海AI训练服务器、星脉网络交换机及算存网数安底座。
第二章:下沉十亿级用户技术架构,构建全栈自主创新云原生平台 针对异构兼容与算力调度的挑战,腾讯云推出面向应用的开放兼容国产智算云平台(TCE),通过全栈IaaS+PaaS+DaaS+TBaaS架构重塑算力底座 第三章:深耕软硬件协同优化,释放核心系统算力与运维效能 通过深度优化系统内核机制与引入自研硬件,TCE智算云平台在系统稳定性、资源利用率及运维效率上实现了量化突破: 底层架构可靠性优化:大规模应用MCA 自动化运维与智算调度:支持虚拟机批量迁移,运维效率提升200%;独创qGPU技术,实现高性能计算集群(HCC)中智算算力的精准划分与灵活调度;引入专用密码机并应用国产密码算法,从关键路径实现安全加固。 第四章:深入政企核心业务场景,打造全国级云边智算示范标杆 依托标准化基础资源与算力调度平台,腾讯TCE已在政府、能源、金融等核心生产系统中实现规模化落地: 某全国垂直系统(FP云工程):基于ARM平台构建全国双中心及各省中心 某头部股份制银行:采用TCE智算方案支撑大模型业务,提供高性能计算集群(HCC)、并行文件存储(TurboFS)及自研高性能网络控制器(IHN)。
网络通信瓶颈与算力浪费: 训练中通信开销占比高达50%,传统以太网利用率仅35-40%,仅0.1%的丢包率即可导致30-50%的算力损失。 第二章:打造算存网数一体化的高性能平台 为解决上述痛点,腾讯云基于混元大模型实践,提供软硬结合、一云多芯的高性能AI数智底座,实现算力、网络、存储与数据调度的全面重构: 高性能计算集群 (HCC): 集结业内前沿 支持超300小时连续训练,算力虚拟化零损耗。 第三章:量化核心业务指标与降本增效成果 通过底层技术的深度优化,腾讯云AI数智底座在实际业务中实现了高度可量化的投资回报,核心表现为以下三大关键业务指标的突破: 模型训练与推理效能大幅跃升: 搭配自研TACO 第四章:赋能十万级企业客户与千万级并发场景 腾讯云数智底座的成熟稳定性已在海量真实业务场景中得到千锤百炼的验证: 外部客户广泛覆盖: 服务公有云10万+客户,支撑大规模训练、推理等多种智算场景。
第一章:应对AI算力供需失衡与异构部署成本激增 随着全球AI大模型训练算力每3.4个月翻一倍,企业在推进大模型产业落地时面临显著的战略困境与工程瓶颈。 传统IT基础设施已无法支撑生成式AI与Agentic AI的发展需求,具体表现为三大核心业务痛点: 算力资源供需失衡: 单点算力无法满足千卡/万卡规模的集群需求,且硬件日故障率导致长稳训练中断,算力利用率低下 第二章:构建“一云多芯”智算底座与Data+AI一体化平台 针对上述瓶颈,腾讯云联合AMD等生态伙伴,提供从底层算力、网络存储到上层大模型及应用的一体化解决方案。 第五代AMD EPYC™处理器算力底座: 基于3nm/4nm工艺,提供高达192核384线程的算力密度。 全栈智算与开源贡献体系: 腾讯云计算产品架构师 孙辰龙 与 腾讯混元大模型演讲者 范福鑫 的分享印证了腾讯云在AI Infra的积累。
赋能作用日渐凸显随着数字经济时代的全面开启,算力作为重要“底座”支撑,赋能作用日渐凸显。 “计算力不仅是生产力,还是创造力,计算正向智算跨越。” 浪潮信息总裁彭震认为,计算力和算法是智算中心的核心,要想产生一流的智慧,就必须要有一流的算法,同时算法的高效运转要依赖领先的计算力,计算力基建化和算法基建化相辅相成。 算力总规模超过140每秒浮点运算次数,近5年年均增速超过30%,算力规模排名全球第二。全国在用超大型、大型数据中心超过450个,智算中心超过20个。 统筹布局绿色智能的算力基础设施,推进一体化大数据中心体系建设,加速打造数网协同、数云协同、云边协同、绿色智能的多层次算力设施体系,实现算力水平的持续显著提升,夯实数字经济发展“算力底座”。
前文介绍了智算与云网融合的关系,那么智算与算力网络、算网融合的关系又是什么?让我们先来复习一下智算的概念。 AI智算的概念智算即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。 智算不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。算力网络的概念算力网络是实现泛在算力的手段。 三者的关系是什么通过上文对智算概念的描述,我们可以将智算翻译为“数据+算力+算法”,如图4所示。智算涉及丰富的计算场景,需要用到大模型计算,处理海量数据。基于智算的这种特性,算力需求激增。 算力网络和算网融合为智算提供了强大的技术支撑,而智算的发展推动了算网融合和算力网络的进步,他们三者是相互促进的关系。智算时代如何打造算力网络在智算时代下,如何打造算力网络,做到算网融合呢?
突破智驾研发与地图高成本瓶颈 自动驾驶与智能座舱企业面临的核心困境在于研发效率与成本的平衡。 企业需在极短时间内实现高阶智驾量产落地,但面临高精地图采集昂贵、覆盖不足、更新慢的制约,且端到端模型对算力与数据闭环提出极高要求。 核心痛点数据支持: 算力与存储: 自动驾驶训练需处理数十PB至数百PB的数据,并要求万卡级算力集群。 成本压力: 传统高精地图方案成本高昂,且基础设施需做到“又快又省”,要求“榨干每一滴算力性能”。 构建云原生算力底座与轻量化地图方案 腾讯提供覆盖自动驾驶云、智驾地图、云原生基础设施及企业协同的全栈解决方案。 1. 自动驾驶云与智算底座 高性能算力: 提供基于H20 GPU的万卡级集群与星脉网络,实现业界最高的3.2T超高通信带宽。
数据来源: 2025 TIME DAY·腾讯智慧出行技术开放日(智算·AI技术底座新智能专场) 关键发言人: 宋丹丹(腾讯云异构计算产品副总经理)、王登宇(腾讯云存储专家架构师) 智能汽车数据基础设施面临的三大业务瓶颈 随着自动驾驶级别提升,智能汽车数据闭环(采集、存储、计算、发布)对基础架构提出严苛要求,行业普遍面临以下瓶颈: 数据吞吐与存储压力: 感知数据产生速度从L2级的200GB/小时激增至高阶智驾的1.6TB 构建云上智算与存储一体化解决方案 针对上述痛点,腾讯云通过“异构计算+存储底座+网络加速”的组合方案提供服务: 高性能计算集群(HCC): 搭载3.2Tbps自研星脉网络,支持 200Gbps vRDMA 腾讯云Data Platform: 以COS对象存储为统一底座(单集群可管理 百EB级 数据),结合GooseFS 2.0(提供百万级IOPS)与MetalInsight智能检索,构建端到端的数据湖仓。 从30天缩短至1天 基于腾讯云服务经验,设备到位即开始训练 千卡单日故障率 低至0.16 星星海自研AI服务器优化,故障恢复仅需5分钟 模型部署时间 减少95% 基于HAI即插即用服务 头部车企与智驾企业落地实践
一、 产品定位与核心亮点 腾讯云智算是一款面向AI应用与模型训练推理的高性能云计算服务。 其核心技术属性为AI原生基础设施,商业差异化卖点在于提供从底层硬件到上层应用的全栈式、高可靠、高效率的AI算力解决方案。 二、 产品应用场景 AI应用开发者:在需要快速构建和部署交互式AI应用(如智能体、智驾)时,面临服务不稳定、扩容速度慢等开发门槛高的问题。 解决方案:客户采用腾讯云智算的稳定可靠基础设施(自研AI服务器、模型分发引擎、全球应用加速)与智能高效的资源调度方案。 应用成效:实现了服务稳定性保障与业务扩展性支持。 总结 腾讯云智算通过整合稳定可靠的基础设施、智能高效的资源调度及丰富开放的配套工具,为AI应用与模型训练提供高性能、高可靠的算力支持,其公有云与专有云采用同源同构的分布式架构,并在Gartner评估中表现突出
从某种意义上讲,智算中心不只是称呼上的改变,更是应对AI时代算力爆炸性增长的实质性突破,新标杆的示范效应值得期待。 该来的总会来。 如果说新基建将外延扩展至智算中心,是算力供给侧改革的序曲;那么《三年行动计划》则是层次清晰的组合乐章,推动算力供给侧改革向纵深挺进。 类似南京智算中心这样的算力枢纽节点,借助生产、聚合、调度和释放四大关键作业环节,可以提供人工智能全链条所需的算力服务。 智算生态强化聚集效应 算力枢纽不仅是算力上下腾挪的中转站,更是催生人工智能良性生态的孵化台。 南京智算中心采用“一中心、一底座、N平台”的模式运营,即一个算力支撑中心、一个PAAS生态拓展底座、N个应用平台——重点支撑科技金融、智能制造、智慧零售、智慧医疗、智慧交通、气象研究等领域应用创新。
大会聚焦于智算崛起、赋能协同、算力新十年等行业热点话题展开了深入探讨。 在大会AI算力建设系列分论坛演讲环节,腾讯专有云TCE产品负责人丛磊发表了《智算新趋势下,打造自主可控的全栈云平台》主题演讲,重点阐述了腾讯专有云TCE在智算建设方面的产品布局及成果。 腾讯专有云TCE云智算套件,基于公有云的智算产品能力,在私有云场景下输出腾讯云高性能计算集群HCC、智能高性能网络IHN星脉、高性能并行文件存储TurboFS、算力加速框架Taco以及GPU算力共享技术等核心能力 ,支撑企业搭建高性能智算云,解决客户智算本地化、数据安全、数据隐私等诉求。 无论您是想组建大型智算中心来承接公共算力服务,还是希望通过行业云来赋能上下游行业,智算套件强大的行业云能力都能轻松实现。