首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI基础设施的三难困境:互联、功耗与架构的创新博弈

AI基础设施的三难困境:互联、功耗与架构的创新博弈

作者头像
数据存储前沿技术
发布2026-04-29 13:18:37
发布2026-04-29 13:18:37
3150
举报

阅读收获

  • 掌握推理成本结构的质变:推理与RL占比从<20%上升至80%,直接驱动存储系统对高IOPS、低延迟、长连接处理能力的新诉求。智能体时代的碎片化外部调用将成为存储I/O的主要压力源。
  • 识别投资主题的权力转移:从单纯的算力芯片竞争向互联技术、光电融合、效率工具链的三角转换。1.6T时代的CPO技术与开放互联协议(UALink/UEC)将重塑产业格局。
  • 理解架构演进的新分水岭:MoE-SSM混合架构的出现预示着Transformer统治的终局,长上下文处理与稀疏计算的融合将成为下一代模型的标准形态,而硬件加速工具链的完善周期成为技术落地的关键制约。

全文概览

随着前沿模型参数规模逼近万亿级别,AI算力集群正面临一场前所未有的系统性危机。不再是"堆砌芯片就能解决"的时代——当单机柜功耗从120 kW飙升至1 MW,当模型参数从1T扩展到5-10T,当推理与强化学习成本占比超过总OPEX的80%时,计算、功耗与互联之间的矛盾已成为制约整个行业向前发展的铁三角

问题的症结在于:传统的以单点算力竞争为中心的架构模式已然失效。以MoE为代表的稀疏架构虽然降低了激活计算量,但却对全局All-to-All通信提出了极限要求;极低功耗密度逼迫产业从风冷迈向全液冷,进而对数据中心的物理基础设施产生根本性改造需求;而即将到来的1.6T时代,信号完整性与传输距离已成为光互联技术面临的新瓶颈。

对于基础设施规划者、存储系统架构师乃至投资决策者而言,这不仅是一场技术竞争,更是一场关乎供应链安全、成本可控性、系统可扩展性的战略决策。是坚守成熟方案以获取短期收益,还是提前布局新兴架构以抢占长期制高点?本文基于最新的行业数据和技术趋势,系统梳理了2025-2028年AI基础设施面临的核心转变与应对策略。

👉 划线高亮 观点批注


图片展示了“AI 基础设施三难困境(AI Infrastructure Trilemma)”的执行摘要。它从模型规模、成本构成以及物理限制三个维度,揭示了当前及未来几年 AI 算力集群面临的核心挑战。

  • 前沿模型规模 (Frontier Model Scale):
    • 现状: 目前最先进的(Frontier)AI 模型规模已经达到或超过了 1 万亿(1 T)参数。(最近发布的 DeepSeek V4 Pro 参数量已经达到了 1.6 万亿)
    • 预测: 预计到 2028 年,模型参数将飙升至 5 到 10 万亿(5-10 T)
    • 技术路径: 提到了 MoE(Mixture of Experts,混合专家模型)。即使总参数达到数万亿,实际激活的参数(Active Parameters)将保持在 500 亿到 1000 亿(50-100 B)之间,这是一种通过稀疏计算来平衡模型容量与推理成本的策略。
  • 运营成本(OPEX)结构转型:
    • 成本构成: 在生产级模型的全生命周期中,推理(Inference) 加上基于 RL(Reinforcement Learning,强化学习) 的后期训练(Post-training)现已占据了约 80% 的总成本。
    • 趋势: 算力需求正在从单纯的“大规模预训练”向“高效在线推理”和“持续微调优化”转移。
  • 电力与 I/O 墙 (Power & IO Walls):
    • 功率密度: 机柜(Rack)功率正在急剧增长。2024 年约为 120 kW,预计到 2027 年将达到 600 kW,甚至出现了 1 MW(兆瓦) 级别的原型机柜。(试想一下,当前运营商常规机房的机柜功率是否满足计算的规模建设?如果不满足改造的潜在成本、市场空间?)
    • 散热技术: 这种极高的热密度要求必须采用 全液冷(Full Liquid Cooling) 方案。
    • 互联技术: 网络与 I/O 正在向 1.6 T 吞吐量和单通道 200 G(200 G-lane)SerDes(串行器/解串器) 演进。
    • 物理挑战: 指出 Reach(传输距离)Signal Integrity(信号完整性) 将成为下一个技术瓶颈。

图片展示了 2025 年至 2028 年间 AI 基础设施领域的“五大关键转变(Five Pivotal Shifts)”。这些转变标志着 AI 计算从单纯的“算力竞赛”向“架构优化”和“通信瓶颈突破”演进。

  • 从“计算中心”向“网络中心”转移: 随着 MoE 架构成为主流,系统的核心瓶颈已从单点的浮点运算能力转向了集群内部的 All-to-All 通信。网络延迟和带宽将决定 AI 系统的实际有效利用率。
  • AI 经济学的质变: 推理成本与 RL 后训练成本的急剧上升,迫使基础设施架构必须针对“长程推理”和“高频迭代”进行优化,而非仅仅针对一次性的预训练任务。
  • 物理层的革命性演进: 为了支撑 1.6 T 以上的超高带宽并降低能耗,光互联技术正在发生代际变革。CPO(共封装光学) 被视为 2027 年后打破“I/O 墙”的终极方案,同时行业正试图通过 UALink 等开放协议挑战私有生态。(最近频繁上市的光模块企业已经登顶A股,一波接一波)

  • 应对“物理墙”的布局革命: 建议从硬件底层(机柜布局)开始重构,通过极短铜缆互联和 CPO 光子技术,解决 1.6 T 时代信号衰减严重的难题。这是解决基础设施“IO 墙”的物理基础。
  • 软件定义的推理效率提升: 不再单纯依赖增加算力,而是通过 4-bit 量化、MoE 架构蒸馏以及投机采样等手段,从算法层面压榨每一分硬件性能,目标是将推理速度提升 2 倍以上。
  • 解耦供应商锁定: 战略性地避开封闭生态,转向 UALink 和 UEC 等开放互联标准。这不仅是为了降低成本,更是为了在大规模 AI 集群中实现更灵活的异构计算资源调度。

  • 从“稠密”转向“稀疏”计算: MoE 架构代表了计算哲学的转变——不再追求所有神经元参与每次决策。这虽然节省了算力,却对存储系统的容量和集群网络的互联带宽(All-to-All)提出了前所未有的挑战。
  • 挑战 Transformer 的统治地位: 以 Mamba 为代表的 SSMs 正在解决 Transformer 在处理长文本时的效率危机。 的线性复杂度意味着 AI 系统未来可以处理极大规模的上下文(如整本书或长视频),而不会导致计算成本爆炸。
  • 混合架构成为落地首选: 像 Jamba 这样的混合架构表明,业界倾向于结合 Transformer 的注意力能力与 SSMs 的效率优势。这种趋势要求底层硬件必须具备高度的灵活性,以同时支持不同模式的计算负载。

如何理解 $O(N)$复杂度

1. Transformer 的 :全员社交模式

在 Transformer 的自注意力机制(Self-Attention)中,序列中的每一个“词”(Token)都需要和序列中包括自己在内的所有词进行一次“匹配度计算”,以确定彼此的相关性。

  • 假设序列长度为 :
    • 第 1 个词要看 个词。
    • 第 2 个词也要看 个词。
    • ...
    • 第 个词还是要看 个词。
  • 总计算量:

直观理解: 就像一个 人的舞会,每个人都要和会场里的所有人握一次手。如果人数翻倍,握手的总次数就会变成原来的 4 倍

2. SSM(如 Mamba)的 :记账员模式

结构化状态空间模型(SSM)的工作方式更像是一个带有记忆的记账员。它不需要回头去看之前的每一个词,而是维护一个**“内部状态”(State)**。

  • 处理过程: 记账员从左往右读词,每读到一个新词,就根据这个词更新一下手中的“账本”(状态),然后把这个词丢掉。
  • 计算量: 处理第 1 个词做一次更新,处理第 100 个词也只做一次更新。
  • 总计算量: 与词的数量 成正比,即 。

直观理解: 就像你在看电影,你不需要每秒钟都回想前面所有帧的画面,你只需要记住目前的剧情(状态)。无论电影多长,你大脑每秒钟处理的信息量是恒定的。


图片总结了面向架构规划者(Architecture Planners)的核心启示,重点在于技术落地的节奏感:即什么时候该坚持成熟方案,什么时候该转向新兴架构。

  • 软件生态决定落地速度: SSM 虽然在推理复杂度和长文本处理上有巨大潜力,但缺乏像 Transformer 那样成熟的硬件加速内核(如 Flash-Attention)。架构规划者应等待 Triton 和 Flash-Mamba 等工具链完善后再大规模转向。
  • 工程优化的效能巅峰: 在 2026 年之前,行业仍处于“Transformer 的红利期”。通过 MoE 降低计算量、4-bit 量化压缩存储、投机采样提升吞吐,这套组合拳是目前性价比最高、技术最成熟的演进路径。
  • 下一代模型的“终局”构想: 随着模型迈向 GPT-6 的万亿参数时代,单一架构可能难以为继。混合 MoE-SSM 可能会成为最终形态——利用 MoE 处理海量知识库,利用 SSM 实现无限长的上下文处理,同时保持较低的内存占用。

  • 算力结构的战略性位移: 过去 AI 的突破主要靠增加预训练数据,而现在强化学习(RL)阶段的算力消耗正迅速逼近预训练(如 Grok-4 的 50% 占比)。这要求基础设施必须支持极高吞吐的训练-推理闭环,以支撑大规模的 RL 迭代。
  • 从“静态知识”到“动态执行”: 智能体不再仅仅是生成文本,而是通过外部 API 驱动的“工具化”模式运作。对于存储和网络而言,这意味着海量的、碎片化的外部调用请求将成为常态,对系统的 IOPS 和长链接处理能力提出了更高要求。
  • 逻辑能力的自动化闭环: 通过 RLVR 和多智能体辩论,模型正在学习如何自我纠错。这种“可验证性”是解决大模型幻觉、提升逻辑严密性的核心路径。

图片聚焦于推理与强化学习(RL)效率的核心杠杆(Key Levers)。它展示了业界如何通过硬件特性、模型压缩和算法创新这三重手段,共同压榨计算资源的极限,以应对日益增长的推理成本

  • 硬件与精度的极限拉锯: NVIDIA Blackwell 对 FP4 的原生支持标志着 AI 推理正式进入“极低比特时代”。对于存储系统而言,这意味着同样的显存带宽下可以传输双倍的数据量,极大地缓解了推理时的“带宽墙”问题。
  • 端侧 AI 的爆发基础: 蒸馏技术不仅是简单的“瘦身”,更是将云端智能下放到边缘设备(手机、PC)的入场券。这种 4-20 倍的缩放比例,使得在本地有限的内存资源下运行复杂逻辑成为可能。
  • 用户体验的质变: 投机采样是目前解决大模型“蹦字”慢最有效的算法杠杆。它利用了 GPU 并行计算的剩余算力来换取更低的感官延迟,是 2025-2026 年大规模商业化部署的标配技术。

图片探讨了 AI 基础设施中最核心的“管道”竞争——互联技术(Interconnect) 的路线之争。随着单机柜功耗迈向兆瓦(MW)级,如何将成千上万颗 GPU 高效地“捏”在一起,已经成了决定算力集群上限的关键。

  • 开放架构对私有生态的冲击: 尽管 NVIDIA 的 NVLink 在带宽性能上仍有代差级优势,但 UALink 和 SUE 的出现标志着行业正在合力构建“反垄断”互联标准。对于架构规划者来说,2026 年后将拥有更具性价比的异构集群选择方案。
  • 以太网重回巅峰: 在 Scale-out 领域,由于 Ultra-Ethernet (UEC) 在拥塞控制和重传机制上的重大改进,以太网正在收复曾被 InfiniBand 占据的阵地,成为支撑数十万卡级别超大规模集群的事实标准。
  • 光子技术的“摩尔定律”: 1.6 T 时代是物理特性的分水岭。从可插拔(LPO)到共封装(CPO)的跨越,不仅是为了提升速率,更是为了降低那 40%-50% 的 I/O 功耗。没有 CPO,未来兆瓦级的机柜将无法有效散热和供电。 (这个判断给光互联行业注入了最强的信心,机柜级效率的限制推动了更低 IO 功耗的互联和散热需求)

图片再次强调了强化学习时代(RL Era)的缩放趋势(Scaling Trends)。它勾勒出 AI 演进的新蓝图:模型不再仅仅是知识的容器,而是正在演变为能够自主规划、调用工具并进行自我逻辑校验的“数字员工”。

  • 算力投资的重心转移: 预训练(Scaling Law 的第一半)正在趋于平缓,而通过 RL 进行的“思维链”和“逻辑推理”缩放(Scaling Law 的第二半)正成为新的算力消耗黑洞。对于基础设施而言,这意味着需要支持更长序列、更高频交互的推理集群。
  • 反馈机制的自动化: RLVR 的核心价值在于将人类反馈(RLHF)替换为程序化的、可验证的自动反馈。这对于处理数学、编程等对准确性要求极高的场景至关重要,也是 AI 走向“自主进化”的必经之路。
  • 从“单打独斗”到“集群协作”: 多智能体辩论和共识机制预示着未来 AI 的形态可能不是一个庞然大物,而是一群小型、专业化的模型通过高速互联(Fabric)协同工作。这种架构对数据中心的网络延迟提出了极致要求。

图片展示了 2025-2028 年的战略展望——投资主题(Investment Theses)。它将前面讨论的所有技术趋势转化为资本市场的逻辑,揭示了未来三年 AI 基础设施最吸金的四个核心赛道。

  • 互联即算力: 当模型运行有一半时间在“等网络数据”时,投资网络互联(特别是低延迟交换机和光模块)的边际收益已超过投资纯算力芯片。亚微秒延迟将成为衡量顶级基础设施的分水岭。
  • 效率是第一生产力: 推理端的“淘金热”意味着 AI 已经从“实验室规模化”进入“财务模型规模化”。任何能显著降低每 Token 成本(如通过 FP4 量化)的技术都具有极高的商业价值。
  • 生态位的解构与重组: 开放协议(UEC/UALink)与光子技术(CPO)的结合,正在重塑数据中心的物理形态。这不仅是技术的更迭,更是行业对“反垄断”和“能源效率”双重追求的结果。

图片揭示了未来 3-5 年(2026-2030 年左右)AI 领域即将撞上的“新兴瓶颈(Emerging Bottlenecks)”。如果说前几张图讨论的是如何跑得更快,这张图讨论的就是如何避免系统性崩溃。

  • 能源效率成为硬约束: AI 的竞争已演变为电力供应和热管理能力的竞争。30-60 MW 的能耗意味着数据中心的选址和设计必须围绕“能源获取”和“液冷基础设施”重新构建。
  • 数据荒与合成数据: 当高质量的人类数据被挖掘殆尽,模型必须开始学习如何“生产自己的教材”。合成数据的过滤质量将直接决定 GPT-5 乃至 GPT-6 能否突破现有的智能天花板。
  • 运维的“无人化”转型: 在 10 万卡集群中,任何微小的链路故障或固件错误都可能导致训练中断(Checkpointing 频繁)。闭环 AIOps 不再是可选项,而是保障集群“有效运行时间(Uptime)”的唯一手段。

从“单点技术”转向“系统性 TCO”: 技术领导者的职责已从选择最快的芯片转变为构建可持续、可扩展且不被锁定的互联生态系统(Fabric)。五年周期的 TCO 评估将成为主流。

物理设施的液冷革命: 300 kW/机柜是一个分水岭,传统的风冷技术将在此刻彻底失效。基础设施的规划必须具备前瞻性,提前在光互联和液冷管道上做好预留。

软件定义成本: 硬件带来的提升是基础,但真正的差异化竞争优势来自于通过软件手段(如 FP4 量化和合成数据)实现的成本指数级下降。

思考

这篇发表于25年8月的AI生态战略性报告给我最大的印象是讨论了面向更大规模参数 LLM 训练和推理过程中,Transformer架构所面临的挑战以及SSM架构对应的计算原理和核心优势。说明产业技术是在不断更新迭代的,每个阶段有关注的核心问题和对应的解决方案。

在Transformer架构中,GPU作为典型的强互联暴力计算机器能够发挥Transformer最大的优势,但Transformer同时也面临着对极致互联带宽的诉求。如果这条路走不通,或者说到达一个具体参数量之后,就没有办法继续演进,那么行业就会转向文中讨论的SSM架构。

SSM架构在一定程度上牺牲了Transformer架构中每个token都要进行计算的准确性,但提供了更强的全局感知能力。它没有Transformer那么精准,但具备更长上下文的全局感知,这有点类似于人的记忆系统。如果说你要具体想起两年前在某个场景发生的一些具体的事情,这是很难想起的,但你知道是发生过,但是一些细节被遗忘了。从实用性角度来讲,Transformer的准确性具备更强的工业价值。同时从整个Agentic生态演进的角度来看,SSM提供的无限上下文有足够的想象力


延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

问题1:信号完整性瓶颈的突破路径

当互联带宽达到1.6T时,Reach与Signal Integrity已成为物理极限。CPO(共封装光学)相比LPO(可插拔光学)能否真正解决兆瓦级机柜的功耗与散热困局?还是只是技术栈中的过渡方案? 这对于存储系统在集群中的互联架构选择有何启示?

问题2:开放协议与私有生态的权力博弈

UALink和UEC虽然承诺开放与成本优化,但NVIDIA NVLink在代差级性能面前是否会形成"屏障效应"?在5-10T参数量的训练集群中,是否存在一个临界点,使得开放互联**在性能/功耗/成本的综合PK中反超私有方案?

问题3:SSM架构的工业化落地时间表

文中提到Mamba在O(N)复杂度上的优势与长上下文能力,但Triton/Flash-Mamba等工具链的成熟度是否足以支撑2027年的大规模商业部署? 如果不足,从存储侧应如何提前为混合MoE-SSM架构的并发需求做基础设施预留?

原文标题:The Fabric of Super Intelligence AI & Networking Trends (2025-2028)

Notice:Human's prompt, Datasets by Gemini-3-Pro

#FMS25 #AI_Infra创新

---【本文完】---

丰子恺-护生画集- 餘糧及雞犬

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Transformer 的 :全员社交模式
  • 2. SSM(如 Mamba)的 :记账员模式
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档