AI基础设施的三难困境：互联、功耗与架构的创新博弈

数据存储前沿技术

发布于 2026-04-29 13:18:37

3150

阅读收获

掌握推理成本结构的质变：推理与RL占比从<20%上升至80%，直接驱动存储系统对高IOPS、低延迟、长连接处理能力的新诉求。智能体时代的碎片化外部调用将成为存储I/O的主要压力源。
识别投资主题的权力转移：从单纯的算力芯片竞争向互联技术、光电融合、效率工具链的三角转换。1.6T时代的CPO技术与开放互联协议（UALink/UEC）将重塑产业格局。
理解架构演进的新分水岭：MoE-SSM混合架构的出现预示着Transformer统治的终局，长上下文处理与稀疏计算的融合将成为下一代模型的标准形态，而硬件加速工具链的完善周期成为技术落地的关键制约。

全文概览

随着前沿模型参数规模逼近万亿级别，AI算力集群正面临一场前所未有的系统性危机。不再是"堆砌芯片就能解决"的时代——当单机柜功耗从120 kW飙升至1 MW，当模型参数从1T扩展到5-10T，当推理与强化学习成本占比超过总OPEX的80%时，计算、功耗与互联之间的矛盾已成为制约整个行业向前发展的铁三角。

问题的症结在于：传统的以单点算力竞争为中心的架构模式已然失效。以MoE为代表的稀疏架构虽然降低了激活计算量，但却对全局All-to-All通信提出了极限要求；极低功耗密度逼迫产业从风冷迈向全液冷，进而对数据中心的物理基础设施产生根本性改造需求；而即将到来的1.6T时代，信号完整性与传输距离已成为光互联技术面临的新瓶颈。

对于基础设施规划者、存储系统架构师乃至投资决策者而言，这不仅是一场技术竞争，更是一场关乎供应链安全、成本可控性、系统可扩展性的战略决策。是坚守成熟方案以获取短期收益，还是提前布局新兴架构以抢占长期制高点？本文基于最新的行业数据和技术趋势，系统梳理了2025-2028年AI基础设施面临的核心转变与应对策略。

👉 划线高亮观点批注

图片展示了“AI 基础设施三难困境（AI Infrastructure Trilemma）”的执行摘要。它从模型规模、成本构成以及物理限制三个维度，揭示了当前及未来几年 AI 算力集群面临的核心挑战。

前沿模型规模 (Frontier Model Scale)：
- 现状： 目前最先进的（Frontier）AI 模型规模已经达到或超过了 1 万亿（1 T）参数。（最近发布的 DeepSeek V4 Pro 参数量已经达到了 1.6 万亿）
- 预测： 预计到 2028 年，模型参数将飙升至 5 到 10 万亿（5-10 T）。
- 技术路径： 提到了 MoE（Mixture of Experts，混合专家模型）。即使总参数达到数万亿，实际激活的参数（Active Parameters）将保持在 500 亿到 1000 亿（50-100 B）之间，这是一种通过稀疏计算来平衡模型容量与推理成本的策略。
运营成本（OPEX）结构转型：
- 成本构成： 在生产级模型的全生命周期中，推理（Inference） 加上基于 RL（Reinforcement Learning，强化学习） 的后期训练（Post-training）现已占据了约 80% 的总成本。
- 趋势： 算力需求正在从单纯的“大规模预训练”向“高效在线推理”和“持续微调优化”转移。
电力与 I/O 墙 (Power & IO Walls)：
- 功率密度： 机柜（Rack）功率正在急剧增长。2024 年约为 120 kW，预计到 2027 年将达到 600 kW，甚至出现了 1 MW（兆瓦） 级别的原型机柜。（试想一下，当前运营商常规机房的机柜功率是否满足计算的规模建设？如果不满足改造的潜在成本、市场空间？）
- 散热技术： 这种极高的热密度要求必须采用 全液冷（Full Liquid Cooling） 方案。
- 互联技术： 网络与 I/O 正在向 1.6 T 吞吐量和单通道 200 G（200 G-lane） 的 SerDes（串行器/解串器） 演进。
- 物理挑战： 指出 Reach（传输距离） 和 Signal Integrity（信号完整性） 将成为下一个技术瓶颈。

图片展示了 2025 年至 2028 年间 AI 基础设施领域的“五大关键转变（Five Pivotal Shifts）”。这些转变标志着 AI 计算从单纯的“算力竞赛”向“架构优化”和“通信瓶颈突破”演进。

从“计算中心”向“网络中心”转移： 随着 MoE 架构成为主流，系统的核心瓶颈已从单点的浮点运算能力转向了集群内部的 All-to-All 通信。网络延迟和带宽将决定 AI 系统的实际有效利用率。
AI 经济学的质变： 推理成本与 RL 后训练成本的急剧上升，迫使基础设施架构必须针对“长程推理”和“高频迭代”进行优化，而非仅仅针对一次性的预训练任务。
物理层的革命性演进： 为了支撑 1.6 T 以上的超高带宽并降低能耗，光互联技术正在发生代际变革。CPO（共封装光学） 被视为 2027 年后打破“I/O 墙”的终极方案，同时行业正试图通过 UALink 等开放协议挑战私有生态。（最近频繁上市的光模块企业已经登顶A股，一波接一波）

应对“物理墙”的布局革命： 建议从硬件底层（机柜布局）开始重构，通过极短铜缆互联和 CPO 光子技术，解决 1.6 T 时代信号衰减严重的难题。这是解决基础设施“IO 墙”的物理基础。
软件定义的推理效率提升： 不再单纯依赖增加算力，而是通过 4-bit 量化、MoE 架构蒸馏以及投机采样等手段，从算法层面压榨每一分硬件性能，目标是将推理速度提升 2 倍以上。
解耦供应商锁定： 战略性地避开封闭生态，转向 UALink 和 UEC 等开放互联标准。这不仅是为了降低成本，更是为了在大规模 AI 集群中实现更灵活的异构计算资源调度。

从“稠密”转向“稀疏”计算： MoE 架构代表了计算哲学的转变——不再追求所有神经元参与每次决策。这虽然节省了算力，却对存储系统的容量和集群网络的互联带宽（All-to-All）提出了前所未有的挑战。
挑战 Transformer 的统治地位： 以 Mamba 为代表的 SSMs 正在解决 Transformer 在处理长文本时的效率危机。的线性复杂度意味着 AI 系统未来可以处理极大规模的上下文（如整本书或长视频），而不会导致计算成本爆炸。
混合架构成为落地首选： 像 Jamba 这样的混合架构表明，业界倾向于结合 Transformer 的注意力能力与 SSMs 的效率优势。这种趋势要求底层硬件必须具备高度的灵活性，以同时支持不同模式的计算负载。

如何理解 $O(N)$复杂度

1. Transformer 的：全员社交模式

在 Transformer 的自注意力机制（Self-Attention）中，序列中的每一个“词”（Token）都需要和序列中包括自己在内的所有词进行一次“匹配度计算”，以确定彼此的相关性。

假设序列长度为：
- 第 1 个词要看个词。
- 第 2 个词也要看个词。
- ...
- 第个词还是要看个词。
总计算量： 。

直观理解： 就像一个人的舞会，每个人都要和会场里的所有人握一次手。如果人数翻倍，握手的总次数就会变成原来的 4 倍。

2. SSM（如 Mamba）的：记账员模式

结构化状态空间模型（SSM）的工作方式更像是一个带有记忆的记账员。它不需要回头去看之前的每一个词，而是维护一个**“内部状态”（State）**。

处理过程： 记账员从左往右读词，每读到一个新词，就根据这个词更新一下手中的“账本”（状态），然后把这个词丢掉。
计算量： 处理第 1 个词做一次更新，处理第 100 个词也只做一次更新。
总计算量： 与词的数量成正比，即。

直观理解： 就像你在看电影，你不需要每秒钟都回想前面所有帧的画面，你只需要记住目前的剧情（状态）。无论电影多长，你大脑每秒钟处理的信息量是恒定的。

图片总结了面向架构规划者（Architecture Planners）的核心启示，重点在于技术落地的节奏感：即什么时候该坚持成熟方案，什么时候该转向新兴架构。

软件生态决定落地速度： SSM 虽然在推理复杂度和长文本处理上有巨大潜力，但缺乏像 Transformer 那样成熟的硬件加速内核（如 Flash-Attention）。架构规划者应等待 Triton 和 Flash-Mamba 等工具链完善后再大规模转向。
工程优化的效能巅峰： 在 2026 年之前，行业仍处于“Transformer 的红利期”。通过 MoE 降低计算量、4-bit 量化压缩存储、投机采样提升吞吐，这套组合拳是目前性价比最高、技术最成熟的演进路径。
下一代模型的“终局”构想： 随着模型迈向 GPT-6 的万亿参数时代，单一架构可能难以为继。混合 MoE-SSM 可能会成为最终形态——利用 MoE 处理海量知识库，利用 SSM 实现无限长的上下文处理，同时保持较低的内存占用。

算力结构的战略性位移： 过去 AI 的突破主要靠增加预训练数据，而现在强化学习（RL）阶段的算力消耗正迅速逼近预训练（如 Grok-4 的 50% 占比）。这要求基础设施必须支持极高吞吐的训练-推理闭环，以支撑大规模的 RL 迭代。
从“静态知识”到“动态执行”： 智能体不再仅仅是生成文本，而是通过外部 API 驱动的“工具化”模式运作。对于存储和网络而言，这意味着海量的、碎片化的外部调用请求将成为常态，对系统的 IOPS 和长链接处理能力提出了更高要求。
逻辑能力的自动化闭环： 通过 RLVR 和多智能体辩论，模型正在学习如何自我纠错。这种“可验证性”是解决大模型幻觉、提升逻辑严密性的核心路径。

图片聚焦于推理与强化学习（RL）效率的核心杠杆（Key Levers）。它展示了业界如何通过硬件特性、模型压缩和算法创新这三重手段，共同压榨计算资源的极限，以应对日益增长的推理成本

硬件与精度的极限拉锯： NVIDIA Blackwell 对 FP4 的原生支持标志着 AI 推理正式进入“极低比特时代”。对于存储系统而言，这意味着同样的显存带宽下可以传输双倍的数据量，极大地缓解了推理时的“带宽墙”问题。
端侧 AI 的爆发基础： 蒸馏技术不仅是简单的“瘦身”，更是将云端智能下放到边缘设备（手机、PC）的入场券。这种 4-20 倍的缩放比例，使得在本地有限的内存资源下运行复杂逻辑成为可能。
用户体验的质变： 投机采样是目前解决大模型“蹦字”慢最有效的算法杠杆。它利用了 GPU 并行计算的剩余算力来换取更低的感官延迟，是 2025-2026 年大规模商业化部署的标配技术。

图片探讨了 AI 基础设施中最核心的“管道”竞争——互联技术（Interconnect） 的路线之争。随着单机柜功耗迈向兆瓦（MW）级，如何将成千上万颗 GPU 高效地“捏”在一起，已经成了决定算力集群上限的关键。

开放架构对私有生态的冲击： 尽管 NVIDIA 的 NVLink 在带宽性能上仍有代差级优势，但 UALink 和 SUE 的出现标志着行业正在合力构建“反垄断”互联标准。对于架构规划者来说，2026 年后将拥有更具性价比的异构集群选择方案。
以太网重回巅峰： 在 Scale-out 领域，由于 Ultra-Ethernet (UEC) 在拥塞控制和重传机制上的重大改进，以太网正在收复曾被 InfiniBand 占据的阵地，成为支撑数十万卡级别超大规模集群的事实标准。
光子技术的“摩尔定律”： 1.6 T 时代是物理特性的分水岭。从可插拔（LPO）到共封装（CPO）的跨越，不仅是为了提升速率，更是为了降低那 40%-50% 的 I/O 功耗。没有 CPO，未来兆瓦级的机柜将无法有效散热和供电。（这个判断给光互联行业注入了最强的信心，机柜级效率的限制推动了更低 IO 功耗的互联和散热需求）

图片再次强调了强化学习时代（RL Era）的缩放趋势（Scaling Trends）。它勾勒出 AI 演进的新蓝图：模型不再仅仅是知识的容器，而是正在演变为能够自主规划、调用工具并进行自我逻辑校验的“数字员工”。

算力投资的重心转移： 预训练（Scaling Law 的第一半）正在趋于平缓，而通过 RL 进行的“思维链”和“逻辑推理”缩放（Scaling Law 的第二半）正成为新的算力消耗黑洞。对于基础设施而言，这意味着需要支持更长序列、更高频交互的推理集群。
反馈机制的自动化： RLVR 的核心价值在于将人类反馈（RLHF）替换为程序化的、可验证的自动反馈。这对于处理数学、编程等对准确性要求极高的场景至关重要，也是 AI 走向“自主进化”的必经之路。
从“单打独斗”到“集群协作”： 多智能体辩论和共识机制预示着未来 AI 的形态可能不是一个庞然大物，而是一群小型、专业化的模型通过高速互联（Fabric）协同工作。这种架构对数据中心的网络延迟提出了极致要求。

图片展示了 2025-2028 年的战略展望——投资主题（Investment Theses）。它将前面讨论的所有技术趋势转化为资本市场的逻辑，揭示了未来三年 AI 基础设施最吸金的四个核心赛道。

互联即算力： 当模型运行有一半时间在“等网络数据”时，投资网络互联（特别是低延迟交换机和光模块）的边际收益已超过投资纯算力芯片。亚微秒延迟将成为衡量顶级基础设施的分水岭。
效率是第一生产力： 推理端的“淘金热”意味着 AI 已经从“实验室规模化”进入“财务模型规模化”。任何能显著降低每 Token 成本（如通过 FP4 量化）的技术都具有极高的商业价值。
生态位的解构与重组： 开放协议（UEC/UALink）与光子技术（CPO）的结合，正在重塑数据中心的物理形态。这不仅是技术的更迭，更是行业对“反垄断”和“能源效率”双重追求的结果。

图片揭示了未来 3-5 年（2026-2030 年左右）AI 领域即将撞上的“新兴瓶颈（Emerging Bottlenecks）”。如果说前几张图讨论的是如何跑得更快，这张图讨论的就是如何避免系统性崩溃。

能源效率成为硬约束： AI 的竞争已演变为电力供应和热管理能力的竞争。30-60 MW 的能耗意味着数据中心的选址和设计必须围绕“能源获取”和“液冷基础设施”重新构建。
数据荒与合成数据： 当高质量的人类数据被挖掘殆尽，模型必须开始学习如何“生产自己的教材”。合成数据的过滤质量将直接决定 GPT-5 乃至 GPT-6 能否突破现有的智能天花板。
运维的“无人化”转型： 在 10 万卡集群中，任何微小的链路故障或固件错误都可能导致训练中断（Checkpointing 频繁）。闭环 AIOps 不再是可选项，而是保障集群“有效运行时间（Uptime）”的唯一手段。

从“单点技术”转向“系统性 TCO”：技术领导者的职责已从选择最快的芯片转变为构建可持续、可扩展且不被锁定的互联生态系统（Fabric）。五年周期的 TCO 评估将成为主流。

物理设施的液冷革命： 300 kW/机柜是一个分水岭，传统的风冷技术将在此刻彻底失效。基础设施的规划必须具备前瞻性，提前在光互联和液冷管道上做好预留。

软件定义成本：硬件带来的提升是基础，但真正的差异化竞争优势来自于通过软件手段（如 FP4 量化和合成数据）实现的成本指数级下降。

思考

这篇发表于25年8月的AI生态战略性报告给我最大的印象是讨论了面向更大规模参数 LLM 训练和推理过程中，Transformer架构所面临的挑战以及SSM架构对应的计算原理和核心优势。说明产业技术是在不断更新迭代的，每个阶段有关注的核心问题和对应的解决方案。

在Transformer架构中，GPU作为典型的强互联暴力计算机器能够发挥Transformer最大的优势，但Transformer同时也面临着对极致互联带宽的诉求。如果这条路走不通，或者说到达一个具体参数量之后，就没有办法继续演进，那么行业就会转向文中讨论的SSM架构。

SSM架构在一定程度上牺牲了Transformer架构中每个token都要进行计算的准确性，但提供了更强的全局感知能力。它没有Transformer那么精准，但具备更长上下文的全局感知，这有点类似于人的记忆系统。如果说你要具体想起两年前在某个场景发生的一些具体的事情，这是很难想起的，但你知道是发生过，但是一些细节被遗忘了。从实用性角度来讲，Transformer的准确性具备更强的工业价值。同时从整个Agentic生态演进的角度来看，SSM提供的无限上下文有足够的想象力

延伸思考

这次分享的内容就到这里了，或许以下几个问题，能够启发你更多的思考，欢迎留言，说说你的想法~

问题1：信号完整性瓶颈的突破路径

当互联带宽达到1.6T时，Reach与Signal Integrity已成为物理极限。CPO（共封装光学）相比LPO（可插拔光学）能否真正解决兆瓦级机柜的功耗与散热困局？还是只是技术栈中的过渡方案？ 这对于存储系统在集群中的互联架构选择有何启示？

问题2：开放协议与私有生态的权力博弈

UALink和UEC虽然承诺开放与成本优化，但NVIDIA NVLink在代差级性能面前是否会形成"屏障效应"？在5-10T参数量的训练集群中，是否存在一个临界点，使得开放互联**在性能/功耗/成本的综合PK中反超私有方案？

问题3：SSM架构的工业化落地时间表

文中提到Mamba在O(N)复杂度上的优势与长上下文能力，但Triton/Flash-Mamba等工具链的成熟度是否足以支撑2027年的大规模商业部署？ 如果不足，从存储侧应如何提前为混合MoE-SSM架构的并发需求做基础设施预留？

原文标题：The Fabric of Super Intelligence AI & Networking Trends (2025-2028)

Notice：Human's prompt, Datasets by Gemini-3-Pro

#FMS25 #AI_Infra创新

---【本文完】---