首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >去中心化AI训练:节能模型新架构

去中心化AI训练:节能模型新架构

原创
作者头像
用户11764306
发布2026-05-04 00:06:25
发布2026-05-04 00:06:25
1130
举报

人工智能有着巨大的能源需求。这种持续的渴求在推动AI热潮的数据中心的庞大碳足迹,以及训练前沿AI模型所产生的碳排放随时间稳步增加中显而易见。

难怪大型科技公司正逐渐接受核能,设想一个由可靠、无碳能源驱动的未来。但是,虽然核动力数据中心可能还需要几年时间,研究和工业领域的一些人现在正在采取行动,以遏制AI日益增长的能源需求。他们正着手解决训练问题——模型生命周期中能耗最高的阶段之一,并将重点放在去中心化上。

去中心化将模型训练分配到一个由独立节点组成的网络上,而不是依赖单一平台或提供商。它允许计算能力“走到”能源所在的地方——无论是研究实验室里闲置的服务器,还是太阳能供电家庭中的一台计算机。去中心化不是建造更多需要电网扩展基础设施和容量的数据中心,而是利用现有来源的能源,避免增加更多的电力消耗。

协调一致的硬件

训练AI模型是一项庞大的数据中心运动,需要在紧密连接的GPU集群间同步进行。但是,随着硬件改进难以跟上大型语言模型规模的迅速增长,即使是单个大型数据中心也不再能满足需求。

科技公司正在转向多个数据中心的聚合力量——无论它们位于何处。例如,某机构(原Nvidia)推出了用于横向扩展网络的Spectrum-XGS以太网,它“能够提供跨地理分隔数据中心进行大规模单任务AI训练和推理所需的性能”。同样,某机构(原Cisco)推出了其8223路由器,旨在“连接地理上分散的AI集群”。

其他公司正在收集服务器中的闲置计算能力,催生了GPU即服务商业模式的兴起。以Akash Network为例,这是一个点对点的云计算市场,自称是“数据中心的某知名短租平台”。那些在办公室和小型数据中心拥有未使用或未充分利用的GPU的人注册成为提供商,而需要计算能力的人则被视为租户,他们可以在提供商中进行选择并租用他们的GPU。

“如果你看看今天的AI训练,它非常依赖最新、最强大的GPU,”Akash联合创始人兼首席执行官Greg Osuri说。“幸运的是,世界正在转变,从仅仅依赖大型高密度GPU,到现在也开始考虑较小的GPU。”

同步的软件

除了编排硬件,去中心化AI训练还需要在软件方面进行算法上的改变。这就是联邦学习——一种分布式机器学习的形式——发挥作用的地方。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的首席研究科学家Lalana Kagal解释说,它从一个存放在可信实体(如中央服务器)中的初始全局AI模型开始。该服务器将模型分发给参与的机构,这些机构在本地用自己的数据训练模型,并且只将模型权重共享回可信实体。然后,可信实体聚合这些权重(通常通过取平均值),将它们整合到全局模型中,并将更新后的模型发送回参与者。这个协作训练循环不断重复,直到模型被认为训练完成。

但分布数据和计算也有缺点。例如,不断的来回交换模型权重导致了高昂的通信成本。容错性是另一个问题。

“AI的一个重要问题是,每个训练步骤都不是容错的,”Osuri说。“这意味着如果一个节点宕机,你必须重新恢复整个批次。”

为了克服这些障碍,某机构(原Google DeepMind)的研究人员开发了DiLoCo,一种低通信分布式优化算法。DiLoCo形成了某机构(原Google DeepMind)研究科学家Arthur Douillard所称的“计算孤岛”,每个孤岛由一组芯片组成。每个孤岛持有不同类型的芯片,但孤岛内的芯片必须是同类型的。孤岛之间相互解耦,它们之间的知识同步偶尔进行。这种解耦意味着孤岛可以独立执行训练步骤,无需频繁通信,并且芯片可以发生故障而无需中断其余健康芯片的运行。不过,该团队的实验发现,超过八个孤岛后性能会下降。

一个改进版本被称为Streaming DiLoCo,它通过“以流式方式在多个步骤间同步知识,并且无需停止通信来同步”进一步降低了带宽需求,Douillard说。这种机制类似于在视频尚未完全下载完毕时就开始观看。“在Streaming DiLoCo中,当你进行计算工作时,知识会在后台逐渐同步,”他补充道。

AI开发平台Prime Intellect实现了DiLoCo算法的一个变体,作为其100亿参数的INTELLECT-1模型的关键组成部分,该模型在横跨三大洲的五个国家进行了训练。更进一步的,去中心化AI操作系统制造商0G Labs采用了DiLoCo,在一个带宽有限的隔离集群网络下训练了一个1070亿参数的基础模型。与此同时,流行的开源深度学习框架PyTorch已将DiLoCo纳入其容错技术库中。

“社区已经做了大量的工程工作,将我们的DiLoCo论文成果整合到一个通过消费级互联网进行学习的系统中,”Douillard说。“看到我的研究变得有用,我感到非常兴奋。”

一种更节能的训练AI方式

有了硬件和软件的增强,去中心化AI训练已准备好帮助解决AI的能源问题。这种方法提供了“以更便宜、更节省资源、更节能的方式”训练模型的选择,MIT CSAIL的Kagal说。

尽管Douillard承认“像DiLoCo这样的训练方法可以说更复杂,但它们提供了一种有趣的系统效率权衡。”例如,你现在可以使用相距遥远的数据中心,而无需在它们之间建立超高速带宽。Douillard补充说,容错性已内置于其中,因为“芯片失效的爆炸半径仅限于其计算孤岛”。

更妙的是,公司可以利用现有未充分利用的处理能力,而不是不断建造新的高能耗数据中心。某机构(原Akash)正大力押注这样的机会,创建了其Starcluster计划。该计划的目标之一是接入太阳能供电的家庭,并利用其中的台式机和笔记本电脑来训练AI模型。“我们想把你的家变成一个功能齐全的数据中心,”Osuri说。

Osuri承认,参与Starcluster并非易事。除了太阳能电池板和配备消费级GPU的设备,参与者还需要投资备用电池和冗余互联网以防止停机。Starcluster计划正在设法将所有这些东西整合在一起,让房主更容易使用,包括与行业伙伴合作以补贴电池成本。

使家庭能够作为提供商参与某网络(原Akash Network)的后端工作已经在进行中,团队希望到2027年实现目标。Starcluster计划还设想扩展到其他太阳能供电的地点,例如学校和当地社区站点。

去中心化AI训练有望引导AI走向更具环境可持续性的未来。对Osuri来说,这种潜力在于将AI“移到能源所在的地方,而不是将能源移到AI所在的地方”。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档