去中心化AI训练：节能模型新架构

原创

用户11764306

发布于 2026-05-04 00:06:25

1130

人工智能有着巨大的能源需求。这种持续的渴求在推动AI热潮的数据中心的庞大碳足迹，以及训练前沿AI模型所产生的碳排放随时间稳步增加中显而易见。

难怪大型科技公司正逐渐接受核能，设想一个由可靠、无碳能源驱动的未来。但是，虽然核动力数据中心可能还需要几年时间，研究和工业领域的一些人现在正在采取行动，以遏制AI日益增长的能源需求。他们正着手解决训练问题——模型生命周期中能耗最高的阶段之一，并将重点放在去中心化上。

去中心化将模型训练分配到一个由独立节点组成的网络上，而不是依赖单一平台或提供商。它允许计算能力“走到”能源所在的地方——无论是研究实验室里闲置的服务器，还是太阳能供电家庭中的一台计算机。去中心化不是建造更多需要电网扩展基础设施和容量的数据中心，而是利用现有来源的能源，避免增加更多的电力消耗。

协调一致的硬件

训练AI模型是一项庞大的数据中心运动，需要在紧密连接的GPU集群间同步进行。但是，随着硬件改进难以跟上大型语言模型规模的迅速增长，即使是单个大型数据中心也不再能满足需求。

科技公司正在转向多个数据中心的聚合力量——无论它们位于何处。例如，某机构（原Nvidia）推出了用于横向扩展网络的Spectrum-XGS以太网，它“能够提供跨地理分隔数据中心进行大规模单任务AI训练和推理所需的性能”。同样，某机构（原Cisco）推出了其8223路由器，旨在“连接地理上分散的AI集群”。

其他公司正在收集服务器中的闲置计算能力，催生了GPU即服务商业模式的兴起。以Akash Network为例，这是一个点对点的云计算市场，自称是“数据中心的某知名短租平台”。那些在办公室和小型数据中心拥有未使用或未充分利用的GPU的人注册成为提供商，而需要计算能力的人则被视为租户，他们可以在提供商中进行选择并租用他们的GPU。

“如果你看看今天的AI训练，它非常依赖最新、最强大的GPU，”Akash联合创始人兼首席执行官Greg Osuri说。“幸运的是，世界正在转变，从仅仅依赖大型高密度GPU，到现在也开始考虑较小的GPU。”

同步的软件

除了编排硬件，去中心化AI训练还需要在软件方面进行算法上的改变。这就是联邦学习——一种分布式机器学习的形式——发挥作用的地方。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的首席研究科学家Lalana Kagal解释说，它从一个存放在可信实体（如中央服务器）中的初始全局AI模型开始。该服务器将模型分发给参与的机构，这些机构在本地用自己的数据训练模型，并且只将模型权重共享回可信实体。然后，可信实体聚合这些权重（通常通过取平均值），将它们整合到全局模型中，并将更新后的模型发送回参与者。这个协作训练循环不断重复，直到模型被认为训练完成。

但分布数据和计算也有缺点。例如，不断的来回交换模型权重导致了高昂的通信成本。容错性是另一个问题。

“AI的一个重要问题是，每个训练步骤都不是容错的，”Osuri说。“这意味着如果一个节点宕机，你必须重新恢复整个批次。”

为了克服这些障碍，某机构（原Google DeepMind）的研究人员开发了DiLoCo，一种低通信分布式优化算法。DiLoCo形成了某机构（原Google DeepMind）研究科学家Arthur Douillard所称的“计算孤岛”，每个孤岛由一组芯片组成。每个孤岛持有不同类型的芯片，但孤岛内的芯片必须是同类型的。孤岛之间相互解耦，它们之间的知识同步偶尔进行。这种解耦意味着孤岛可以独立执行训练步骤，无需频繁通信，并且芯片可以发生故障而无需中断其余健康芯片的运行。不过，该团队的实验发现，超过八个孤岛后性能会下降。

一个改进版本被称为Streaming DiLoCo，它通过“以流式方式在多个步骤间同步知识，并且无需停止通信来同步”进一步降低了带宽需求，Douillard说。这种机制类似于在视频尚未完全下载完毕时就开始观看。“在Streaming DiLoCo中，当你进行计算工作时，知识会在后台逐渐同步，”他补充道。

AI开发平台Prime Intellect实现了DiLoCo算法的一个变体，作为其100亿参数的INTELLECT-1模型的关键组成部分，该模型在横跨三大洲的五个国家进行了训练。更进一步的，去中心化AI操作系统制造商0G Labs采用了DiLoCo，在一个带宽有限的隔离集群网络下训练了一个1070亿参数的基础模型。与此同时，流行的开源深度学习框架PyTorch已将DiLoCo纳入其容错技术库中。

“社区已经做了大量的工程工作，将我们的DiLoCo论文成果整合到一个通过消费级互联网进行学习的系统中，”Douillard说。“看到我的研究变得有用，我感到非常兴奋。”

一种更节能的训练AI方式

有了硬件和软件的增强，去中心化AI训练已准备好帮助解决AI的能源问题。这种方法提供了“以更便宜、更节省资源、更节能的方式”训练模型的选择，MIT CSAIL的Kagal说。

尽管Douillard承认“像DiLoCo这样的训练方法可以说更复杂，但它们提供了一种有趣的系统效率权衡。”例如，你现在可以使用相距遥远的数据中心，而无需在它们之间建立超高速带宽。Douillard补充说，容错性已内置于其中，因为“芯片失效的爆炸半径仅限于其计算孤岛”。

更妙的是，公司可以利用现有未充分利用的处理能力，而不是不断建造新的高能耗数据中心。某机构（原Akash）正大力押注这样的机会，创建了其Starcluster计划。该计划的目标之一是接入太阳能供电的家庭，并利用其中的台式机和笔记本电脑来训练AI模型。“我们想把你的家变成一个功能齐全的数据中心，”Osuri说。

Osuri承认，参与Starcluster并非易事。除了太阳能电池板和配备消费级GPU的设备，参与者还需要投资备用电池和冗余互联网以防止停机。Starcluster计划正在设法将所有这些东西整合在一起，让房主更容易使用，包括与行业伙伴合作以补贴电池成本。

使家庭能够作为提供商参与某网络（原Akash Network）的后端工作已经在进行中，团队希望到2027年实现目标。Starcluster计划还设想扩展到其他太阳能供电的地点，例如学校和当地社区站点。

去中心化AI训练有望引导AI走向更具环境可持续性的未来。对Osuri来说，这种潜力在于将AI“移到能源所在的地方，而不是将能源移到AI所在的地方”。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

联邦学习