首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 腾讯云底座构建存网数一体架构,突破大模型力瓶颈

    打造存网数一体的高性能软硬协同方案 为破解上述产业困境,腾讯云推出存网数一体的云原生解决方案,通过“一云多芯、软硬协同”的模式,提供涵盖公有云、专有云(CDZ/CDC/TCE/TCS)在内的多形态灵活部署底座 赋能头部大模型企业实现亿级降本与极致维保 在实际客户应用中,该底座有效解决了从基础设施投资到模型合规备案的端到端业务痛点: 元象 XVERSE(大模型厂商): 借助腾讯云提供的GPU高性能计算集群 谱AI(AI大模型独角兽): 在腾讯云底座支持下,模型训练集群效率大幅跃升,提升幅度达3.23倍。 实现极高的运维保障标准,GPU服务器故障可在5分钟内自动恢复。 全球化的资源调配网络: 服务与资源遍布全球21个国家,拥有58个可用区,支持本地部署。 市场的高占有率与业务验证: 已服务100,000+客户,覆盖互联网、金融、AGI教育等15+个行业。 目前,90%的国内头部大模型厂商(如美团、快手、知乎、小红书、蔚来等)首选该底座。 (数据来源:腾讯云解决方案官方发布材料)

    14210编辑于 2026-05-30
  • 来自专栏IT创事记

    源1.0的“大”时代:算法底座变革激活新生态

    此起彼伏的高潮,潜藏着这样的逻辑:面对数据总量每年翻5~10倍的指数级增长,数据的采集、标注、分析及深度挖掘自然成为首要任务;而大数据行至中局,力不足的矛盾愈发突出,AI服务器、中心等力基础设施的升级迫在眉睫 生态背景下的大模型突破 近几年来,伴随大数据、AI、物联网等新兴技术的协同发展,数字化与智能化的结合更为紧密,“数化”、“智慧计算”等提法尽管来源不同,内涵和外延也略有差别,但其核心所指殊途同归。 浪潮信息副总裁、AI&HPC产品线总经理刘军 接受《IT创事记》采访时,浪潮信息副总裁、AI&HPC产品线总经理刘军表示:“呈现多元化、巨量化、生态化的发展趋势,平台创新和开放生态是力高效释放的核心 据了解,“源1.0”开源开放计划的合作对象主要包括大学和科研机构的人工智能研究团队、各地中心和元脑生态合作伙伴。 从更广阔的视角来看,“源1.0”大幅降低巨量模型研究和应用的门槛,有望催生算法基础设施变革,促进AI产业化和产业AI化,助力千行百业抵达盛开的彼岸。

    63620编辑于 2022-08-30
  • 腾讯云与数据底座:重构自动驾驶力调度与海量数据存储成本

    部署端到端云与数据存储引擎 为解决算力与存储解耦带来的效率损耗,腾讯云构建了覆盖“数据采集、预处理、算法训练、仿真测试、OTA升级”五大阶段的服务矩阵: 全栈自研vRDMA网络: 无需额外网卡硬件成本 Tencent Cloud Data Platform(新一代存储底座): COS对象存储 (YottaStore): 提供12个9的数据可靠性,原生多AZ架构支持数据自动均衡与过载保护。 释放力潜能与量化研发降本指标 基于上述技术架构的落地,企业研发效能与运维成本(Ops Cost)得到具体量化改善,核心业务指标显著提升: 力成本大幅削减: 云函数SCF按毫秒级精确计费,最高节省超70% 的数据预处理成本;vRDMA多机互联技术在实现集群力近无损扩展(扩展比达98%)的同时,节省20%的业务训练成本。 落地车企数据合规与海量模型训练实战 通过构建定制化解决方案,腾讯云底座已在多家头部车企的核心业务流中完成验证: 实战案例一:某头部车企百万级车辆数据合规脱敏 业务冲突: 应对649.5Gbps的数据峰值吞吐

    18000编辑于 2026-05-31
  • 腾讯云解决方案:以高性能底座加速AI产业创新

    应对AI力瓶颈与成本挑战 随着大模型训练与AI应用复杂度激增,企业普遍面临力供给不稳定、大规模训练效率低下、基础设施投入高昂以及跨平台部署困难等核心挑战。 传统计算架构难以满足千亿级参数模型对力、网络和存储的协同性能要求,成为制约AI生产力释放的关键瓶颈。 构建存网数一体化的高性能底座 腾讯云解决方案通过整合自研硬件与软件栈,提供力、存储、网络与数据服务深度融合的一体化基础设施。 谱AI:提升集群效率与快速故障恢复 腾讯云为谱AI提供的高性能计算集群实现模型训练集群效率提升3.23倍。通过自动化运维保障,GPU服务器故障至自动恢复时间控制在5分钟内,保障训练任务连续性。 腾讯云的技术确定性与行业验证 腾讯云服务覆盖全球21个国家、58个可用区,已成为90%国内头部大模型厂商的首选底座,累计服务超10万客户,涵盖互联网、金融、自动驾驶等15+行业。

    18410编辑于 2026-05-30
  • 腾讯云与安全产品矩阵:筑牢AI原生应用底座

    来源:腾讯云(周斌,腾讯安全总经理) 一、 产品定位与核心亮点 腾讯云构建了以 “一云多芯” 为核心的产品矩阵,并辅以全链路的AI安全解决方案。 核心差异化卖点: 底座: 千卡集群训练性能扩展比高达 96%,实测性能高于友商 30%+;硬件资源利用率达 99%+。 功能框架 底座: 高性能计算集群(HCC)、高性能计算服务(HAI)、GPU云服务器、裸金属云服务(CBM)。 米哈游 (müHoYo TECH OTAKUS SAVE THE WORLD) 背景: 作为头部游戏科技公司,对高性能底座有极高要求,需支持大规模AI应用开发。 解决方案: 采用腾讯云全链路产品矩阵。 成效: 成为腾讯云底座的客户代表,验证了产品在高负载、大规模场景下的稳定性与性能。 2.

    16310编辑于 2026-05-31
  • 腾讯云底座以高性能存储与网络加速出行AI数据闭环

    应对智能汽车数据洪流与力瓶颈 随着自动驾驶级别提升至L4,单车数据产生量激增至1.6TB/小时(来源:腾讯云技术图表),智能汽车行业面临数据体量指数级增长带来的三大挑战:数据采集传输需健壮网络、100PB 传统基础设施难以支撑闭环迭代,成为驾能力提升的核心瓶颈。 构建高性价比数据加速与存储方案 腾讯云推出解决方案,聚焦数据预处理与训练环节:自研vRDMA网络实现200Gbps多机互联,无需额外网卡硬件;GooseFS 2.0通过缓存算法优化与元数据架构升级, 提升缓存效率与集群OPS能力10倍(来源:GooseFS性能图表);COS对象存储提供12个9的数据可靠性,单集群支持百EB级文件管理,形成统一数据湖底座。 腾讯云技术领先性支撑智能出行升级 腾讯云底座获Gartner生成式AI基础设施亚太厂商未来潜力第一(来源:Gartner 2025报告),其技术优势体现在三方面:硬件层采用星脉网络(3.2Tbps

    14610编辑于 2026-05-31
  • 腾讯云高性能底座:打破力瓶颈与加速AI生产力释放的实践路径

    构建“存网数安”一体化的生态 为解决上述痛点,腾讯云通过“一云多芯、软硬协同”的架构,提供全面覆盖力、存储、网络、数据与安全的高性能底座: 计算编排与基础架构 (HCC): 采用自研星星海AI 通过SDHN实现网络故障无感知的硬件故障隔离,支持qGPU对单卡进行5%超细粒度力切分隔离。 量化应用成效与研发效率提升 基于上述软硬协同的技术底座,腾讯云方案在核心运维与业务指标上实现了显著的量化提升: 部署与运维效率: 基于服务内外部客户的经验沉淀,设备到位到开始训练的时间由 30天缩短至 业务落地与行业实践解析 在严苛的工业级场景中,腾讯云底座已成功转化为客户的实际业务投资回报: 客户A(自动驾驶训练): 依托TACO Kit的自动驾驶模型编译优化及集合通讯优化能力,在代码无变更的前提下 客户B(推荐系统训练): 通过底座性能调优,助力客户使单个Step的训练耗时从初始的约16秒断崖式下降到 0.42秒。整体性能优化达 40+倍,计算运营成本降低高达 100%+。

    12810编辑于 2026-05-30
  • 构建高性能AI数底座,破解金融行业力效率与安全难题

    固定力绑定期导致资源闲置严重 通信与存储性能瓶颈:多GPU训练中通信开销占比高达50%,传统以太网利用率仅35-40%,且0.1%丢包率即可导致30-50%力损失;多模态训练中数据加载耗时占训练链路 数据为非结构化数据,跨模态对齐技术不成熟,向量化检索一致性面临挑战 安全风险突出:涵盖数据泄露、恶意攻击、内容失控及基础设施破坏等多维度威胁(来源:腾讯金融云邓锡文公开演讲材料) 腾讯云全栈式AI数底座技术架构 腾讯云基于自身超700个应用日均2亿次调用的混元大模型实践,构建存网数一体解决方案: 力层:高性能计算集群HCC支持超300小时连续训练,通过qGPU容器共享实现5%超细粒度切分,故障完全隔离 2025技术白皮书) 量化效能提升验证实际业务价值 应用腾讯云AI底座后实现多项关键指标突破: 训练效率:自研TACO Kit+加速库使AI大模型训练性能提升40%,推理性能提升5倍 资源利用: 级带宽缩短模型分发时间90% 检索性能:向量数据库优化GPU处理速率,向量化效率提升3倍以上,数据检索时间降低50%(来源:腾讯云公开技术指标) 头部金融机构应用案例实证 美团、快手、小红书:采用腾讯云套件处理大规模训练和推理场景

    28320编辑于 2026-04-30
  • 腾讯国产云:全栈自主创新的企业数字化转型底座

    应对数字化转型与国产替代的双重挑战 在复杂国际形势下,企业IT建设面临双重挑战:一方面需加速信息技术融合创新生态的全栈国产替代,另一方面需提升平台开放性以支持大模型时代的AI力调度能力。 提供全栈自主创新的云平台解决方案 腾讯国产云方案构建了覆盖IaaS+PaaS+DaaS+TBaaS的全栈平台。 在某股份制银行项目中,TCE方案实现了NV和昇腾GPU的一云多芯混部,为AI平台提供云原生容器服务和高性能计算集群。 价值:完成云边协同综合示范平台建设,为调度业务提供高性能、高可靠的基础底座。 腾讯云的技术确定性 选择腾讯国产云的核心优势在于: 架构确定性:采用与公有云统一的技术架构,确保能力持续同步更新。

    10600编辑于 2026-05-30
  • 腾讯云2.0:存网数安一体底座与训练推理效能量化分析

    第一章:AI基础设施的力瓶颈与运维挑战 在普惠AI浪潮下,企业面临从科研探索向规模化商业落地的转型。当前行业核心痛点集中在力集群的稳定性不足、训练启动周期过长以及数据流转中的安全合规风险。 第二章:构建存网数安一体的高性能AI底座 腾讯云通过腾讯云2.0升级,提供覆盖力、存储、网络、数据、安全的全栈解决方案,并支持多形态部署。 2.2 多形态分布式部署 支持公有云、分布式云(CDC/CDZ)、专有云(TCE)及云原生(TCS)底座,实现1:1复刻公有云能力,满足客户IDC机房部署与多租户隔离需求。 认证来源: 入选中国电子技术标准化研究院《力服务产业图谱(2024年)》及《力服务产品名录(2024年)》,获评2024年人工智能先锋案例“技术底座”。 标准制定: 担任全国智能计算标准化工作组力互联互通研究组(SAC/SWG32/SG7)成员单位。 5.2 技术演进与资质 全栈自研: 拥有自研星星海AI训练服务器、星脉网络交换机及存网数安底座

    11410编辑于 2026-05-30
  • 重构国产底座:基于“一云多芯”与软硬协同的TCE专有云实践

    第二章:下沉十亿级用户技术架构,构建全栈自主创新云原生平台 针对异构兼容与力调度的挑战,腾讯云推出面向应用的开放兼容国产云平台(TCE),通过全栈IaaS+PaaS+DaaS+TBaaS架构重塑底座 第三章:深耕软硬件协同优化,释放核心系统力与运维效能 通过深度优化系统内核机制与引入自研硬件,TCE云平台在系统稳定性、资源利用率及运维效率上实现了量化突破: 底层架构可靠性优化:大规模应用MCA 自动化运维与调度:支持虚拟机批量迁移,运维效率提升200%;独创qGPU技术,实现高性能计算集群(HCC)中算算力的精准划分与灵活调度;引入专用密码机并应用国产密码算法,从关键路径实现安全加固。 第四章:深入政企核心业务场景,打造全国级云边示范标杆 依托标准化基础资源与力调度平台,腾讯TCE已在政府、能源、金融等核心生产系统中实现规模化落地: 某全国垂直系统(FP云工程):基于ARM平台构建全国双中心及各省中心 某头部股份制银行:采用TCE方案支撑大模型业务,提供高性能计算集群(HCC)、并行文件存储(TurboFS)及自研高性能网络控制器(IHN)。

    16410编辑于 2026-05-30
  • 构建存网一体化AI数底座,激发金融数据资产势能

    网络通信瓶颈与力浪费: 训练中通信开销占比高达50%,传统以太网利用率仅35-40%,仅0.1%的丢包率即可导致30-50%的力损失。 第二章:打造存网数一体化的高性能平台 为解决上述痛点,腾讯云基于混元大模型实践,提供软硬结合、一云多芯的高性能AI数底座,实现力、网络、存储与数据调度的全面重构: 高性能计算集群 (HCC): 集结业内前沿 支持超300小时连续训练,力虚拟化零损耗。 第三章:量化核心业务指标与降本增效成果 通过底层技术的深度优化,腾讯云AI数底座在实际业务中实现了高度可量化的投资回报,核心表现为以下三大关键业务指标的突破: 模型训练与推理效能大幅跃升: 搭配自研TACO 第四章:赋能十万级企业客户与千万级并发场景 腾讯云数底座的成熟稳定性已在海量真实业务场景中得到千锤百炼的验证: 外部客户广泛覆盖: 服务公有云10万+客户,支撑大规模训练、推理等多种场景。

    13210编辑于 2026-05-29
  • 整合软硬一体化底座与大模型全链路落地实践

    第一章:应对AI力供需失衡与异构部署成本激增 随着全球AI大模型训练力每3.4个月翻一倍,企业在推进大模型产业落地时面临显著的战略困境与工程瓶颈。 传统IT基础设施已无法支撑生成式AI与Agentic AI的发展需求,具体表现为三大核心业务痛点: 力资源供需失衡: 单点算力无法满足千卡/万卡规模的集群需求,且硬件日故障率导致长稳训练中断,力利用率低下 第二章:构建“一云多芯”底座与Data+AI一体化平台 针对上述瓶颈,腾讯云联合AMD等生态伙伴,提供从底层力、网络存储到上层大模型及应用的一体化解决方案。 第五代AMD EPYC™处理器底座: 基于3nm/4nm工艺,提供高达192核384线程的力密度。 全栈与开源贡献体系: 腾讯云计算产品架构师 孙辰龙 与 腾讯混元大模型演讲者 范福鑫 的分享印证了腾讯云在AI Infra的积累。

    8800编辑于 2026-05-30
  • 来自专栏智能人工

    计算正向跨越

    赋能作用日渐凸显随着数字经济时代的全面开启,力作为重要“底座”支撑,赋能作用日渐凸显。 “计算力不仅是生产力,还是创造力,计算正向跨越。” 浪潮信息总裁彭震认为,计算力和算法是中心的核心,要想产生一流的智慧,就必须要有一流的算法,同时算法的高效运转要依赖领先的计算力,计算力基建化和算法基建化相辅相成。  力总规模超过140每秒浮点运算次数,近5年年均增速超过30%,力规模排名全球第二。全国在用超大型、大型数据中心超过450个,中心超过20个。 统筹布局绿色智能的力基础设施,推进一体化大数据中心体系建设,加速打造数网协同、数云协同、云边协同、绿色智能的多层次力设施体系,实现力水平的持续显著提升,夯实数字经济发展“底座”。

    62120编辑于 2022-08-15
  • 来自专栏星融元

    深度剖析:力网络及网融合

    前文介绍了与云网融合的关系,那么力网络、网融合的关系又是什么?让我们先来复习一下的概念。 AI的概念即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。 不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。力网络的概念力网络是实现泛在力的手段。 三者的关系是什么通过上文对概念的描述,我们可以将翻译为“数据+力+算法”,如图4所示。涉及丰富的计算场景,需要用到大模型计算,处理海量数据。基于的这种特性,力需求激增。 力网络和网融合为提供了强大的技术支撑,而的发展推动了网融合和力网络的进步,他们三者是相互促进的关系。时代如何打造力网络在时代下,如何打造力网络,做到网融合呢?

    2.3K11编辑于 2024-08-30
  • 腾讯智慧出行:云图协同与底座赋能车企研发、安全与运营效率提升

    突破驾研发与地图高成本瓶颈 自动驾驶与智能座舱企业面临的核心困境在于研发效率与成本的平衡。 企业需在极短时间内实现高阶驾量产落地,但面临高精地图采集昂贵、覆盖不足、更新慢的制约,且端到端模型对力与数据闭环提出极高要求。 核心痛点数据支持: 力与存储: 自动驾驶训练需处理数十PB至数百PB的数据,并要求万卡级力集群。 成本压力: 传统高精地图方案成本高昂,且基础设施需做到“又快又省”,要求“榨干每一滴力性能”。 构建云原生底座与轻量化地图方案 腾讯提供覆盖自动驾驶云、驾地图、云原生基础设施及企业协同的全栈解决方案。 1. 自动驾驶云与底座 高性能力: 提供基于H20 GPU的万卡级集群与星脉网络,实现业界最高的3.2T超高通信带宽。

    13610编辑于 2026-05-30
  • 腾讯云底座助力出行AI:从数据存储到模型训练的降本增效实践

    数据来源: 2025 TIME DAY·腾讯智慧出行技术开放日(·AI技术底座新智能专场) 关键发言人: 宋丹丹(腾讯云异构计算产品副总经理)、王登宇(腾讯云存储专家架构师) 智能汽车数据基础设施面临的三大业务瓶颈 随着自动驾驶级别提升,智能汽车数据闭环(采集、存储、计算、发布)对基础架构提出严苛要求,行业普遍面临以下瓶颈: 数据吞吐与存储压力: 感知数据产生速度从L2级的200GB/小时激增至高阶驾的1.6TB 构建云上智与存储一体化解决方案 针对上述痛点,腾讯云通过“异构计算+存储底座+网络加速”的组合方案提供服务: 高性能计算集群(HCC): 搭载3.2Tbps自研星脉网络,支持 200Gbps vRDMA 腾讯云Data Platform: 以COS对象存储为统一底座(单集群可管理 百EB级 数据),结合GooseFS 2.0(提供百万级IOPS)与MetalInsight智能检索,构建端到端的数据湖仓。 从30天缩短至1天 基于腾讯云服务经验,设备到位即开始训练 千卡单日故障率 低至0.16 星星海自研AI服务器优化,故障恢复仅需5分钟 模型部署时间 减少95% 基于HAI即插即用服务 头部车企与驾企业落地实践

    11010编辑于 2026-05-31
  • 腾讯云产品概要

    一、 产品定位与核心亮点 腾讯云算是一款面向AI应用与模型训练推理的高性能云计算服务。 其核心技术属性为AI原生基础设施,商业差异化卖点在于提供从底层硬件到上层应用的全栈式、高可靠、高效率的AI力解决方案。 二、 产品应用场景 AI应用开发者:在需要快速构建和部署交互式AI应用(如智能体、驾)时,面临服务不稳定、扩容速度慢等开发门槛高的问题。 解决方案:客户采用腾讯云的稳定可靠基础设施(自研AI服务器、模型分发引擎、全球应用加速)与智能高效的资源调度方案。 应用成效:实现了服务稳定性保障与业务扩展性支持。 总结 腾讯云通过整合稳定可靠的基础设施、智能高效的资源调度及丰富开放的配套工具,为AI应用与模型训练提供高性能、高可靠的力支持,其公有云与专有云采用同源同构的分布式架构,并在Gartner评估中表现突出

    11410编辑于 2026-05-30
  • 来自专栏IT创事记

    南京中心:力枢纽节点新标杆

    从某种意义上讲,中心不只是称呼上的改变,更是应对AI时代力爆炸性增长的实质性突破,新标杆的示范效应值得期待。 该来的总会来。 如果说新基建将外延扩展至中心,是力供给侧改革的序曲;那么《三年行动计划》则是层次清晰的组合乐章,推动力供给侧改革向纵深挺进。 类似南京中心这样的力枢纽节点,借助生产、聚合、调度和释放四大关键作业环节,可以提供人工智能全链条所需的力服务。 生态强化聚集效应 力枢纽不仅是力上下腾挪的中转站,更是催生人工智能良性生态的孵化台。 南京中心采用“一中心、一底座、N平台”的模式运营,即一个力支撑中心、一个PAAS生态拓展底座、N个应用平台——重点支撑科技金融、智能制造、智慧零售、智慧医疗、智慧交通、气象研究等领域应用创新。

    1.8K30编辑于 2022-08-30
  • 来自专栏腾讯专有云

    TCE云套件荣获高效能云创新先锋奖

    大会聚焦于崛起、赋能协同、力新十年等行业热点话题展开了深入探讨。 在大会AI力建设系列分论坛演讲环节,腾讯专有云TCE产品负责人丛磊发表了《新趋势下,打造自主可控的全栈云平台》主题演讲,重点阐述了腾讯专有云TCE在建设方面的产品布局及成果。 腾讯专有云TCE云套件,基于公有云的产品能力,在私有云场景下输出腾讯云高性能计算集群HCC、智能高性能网络IHN星脉、高性能并行文件存储TurboFS、力加速框架Taco以及GPU力共享技术等核心能力 ,支撑企业搭建高性能云,解决客户本地化、数据安全、数据隐私等诉求。 无论您是想组建大型中心来承接公共力服务,还是希望通过行业云来赋能上下游行业,套件强大的行业云能力都能轻松实现。

    53410编辑于 2025-02-05
领券