客户端
游戏
无障碍

7

评论

13

6

手机看

微信扫一扫,随时随地看

《经济学人》| 芯片越多效果反而越差,训练AI模型可能不需要巨大的数据中心

图片

最终,模型可以在没有任何专用硬件的情况下进行训练。

编译 | 未来学人

来源 | 经济学人


曾经,世界首富们竞相购买游艇、私人飞机和私人岛屿。如今,他们的“规模”竞赛转向了计算集群。仅18个月前,OpenAI使用约25000个当时最先进的英伟达GPU网络训练了其顶尖的大型语言模型GPT-4。而现在,埃隆·马斯克和马克·扎克伯格正在展示他们的实力:马斯克表示已在一个数据中心部署了10万个GPU,并计划再添置20万个;扎克伯格则宣称将获得35万个。
这场为训练更强大AI模型而不断扩大计算集群的竞赛注定无法永续。每增加一个芯片不仅提升了处理能力,也加重了保持整个集群同步的管理负担。芯片数量越多,数据中心芯片用于数据传输的时间就越长,而实际工作时间则相应减少。简单地增加GPU数量只会带来递减的收益。
因此,计算机科学家正在探索更智慧、更高效的方法来训练未来的AI模型。解决方案可能在于彻底摒弃庞大的专用计算集群(及其高昂的前期投入),转而在多个较小的数据中心之间分配训练任务。一些专家认为,这或许是迈向更远大目标的第一步,即无需任何专用硬件即可训练AI模型。
训练现代AI系统的过程包括输入数据并隐藏其中部分内容,如句子或蛋白质结构。模型会尝试预测被隐藏的部分。如果预测错误,模型会通过一种称为反向传播的数学过程进行调整,以便在下次预测相同内容时更接近正确答案。

数据中心存在连接问题

当需要“并行”工作时,让两个或20万个GPU同时进行反向传播,挑战就出现了。每完成一步,芯片都需要共享它们所做的修改数据。如果不这样做,就不是一次统一的训练过程,而是20万个芯片各自训练20万个独立的模型。这个被称为“检查点”的步骤会迅速变得复杂。两个芯片之间只需要一个连接,但20个芯片之间需要190个连接,而20万个芯片之间则需要近200亿个连接。检查点所需时间也相应增加。在大规模训练中,往往有一半的时间都耗费在检查点上。
这些时间浪费启发了谷歌DeepMind工程师亚瑟·杜伊拉德:何不减少检查点的频率?2023年末,他和同事提出了“大型语言模型的分布式低通信训练”(DiLoCo)方法。DiLoCo不是让10万个GPU在每一步都相互通信,而是描述了如何在不同的“岛屿”(每个岛屿仍是一个相当大的数据中心)之间分配训练工作。在岛屿内部,检查点照常进行,但岛屿之间的通信负担降低了500倍。
这种方法确实需要权衡取舍。这样训练的模型似乎难以达到在单一数据中心训练的模型的同等峰值性能。但有趣的是,这种差距仅存在于相同的训练任务(预测缺失数据)评估中。
当面对全新的预测任务时,这些模型反而表现出更强的泛化能力。在回答训练数据中未出现形式的推理问题时,它们的表现可能超过传统训练的模型。这可能是因为在检查点之间,每个计算岛屿都能稍微自由地探索各自的方向,之后再被拉回主要任务。这就像一群求知欲强的本科生组成研究小组,而不是被统一授课,最终虽然对具体任务的关注度略低,但获得了更丰富的经验。
开源AI实验室Prime Intellect的创始人文森特·韦瑟采纳并改进了DiLoCo。2024年11月,他的团队完成了Intellect-1的训练,这是一个拥有100亿参数的LLM,可与Meta公司2023年发布的顶尖模型Llama 2媲美。
韦瑟的团队开发了OpenDiLoCo,是对杜伊拉德原始方案的改良版本,并用它来协调分布在三大洲八个城市的30个GPU集群训练新模型。在他的实验中,GPU的有效工作时间达到83%,相比之下,当所有GPU都在同一建筑物内时,工作效率为100%;而当仅限于美国的数据中心时,有效工作时间为96%。韦瑟的方法不是每步都进行检查点,而是每500步才进行一次。此外,它不会共享所有更改信息,而是通过“量化”更改,舍弃至少四分之三的低价值数据。
对于已经拥有单一数据中心的顶尖实验室而言,目前还没有迫切需要转向分布式训练。但杜伊拉德认为,随着时间推移,他的方法将成为主流。优势显而易见,而缺点似乎相当有限,至少从目前完成的小规模训练来看是这样。

去中心化的优势将逐步显现

对于像Prime Intellect这样的开源实验室而言,分布式方法还有其他优势。能够训练拥有100亿参数模型的数据中心寥寥无几,这种稀缺性抬高了计算资源的使用成本。相比之下,小型集群更容易获得。Prime Intellect使用的30个集群中,每个都只是一组8个GPU的机架,任何时候最多有14个集群在线。这些资源虽然比前沿实验室的数据中心小一千倍,但韦瑟和杜伊拉德都认为他们的方法具有扩展潜力。
对韦瑟而言,选择分布式训练的动机还在于分散权力,而不仅仅是计算能力。“至关重要的是,不能让它被单一国家或公司把控,”他说。当然,这种方法并非完全无门槛,他使用的八个GPU集群中,单个集群就要花费60万美元;Prime Intellect部署的整个网络购置成本将达1800万美元。但他的工作至少证明,训练强大的AI模型不一定要耗资数十亿美元。
如果成本能进一步降低呢?追求真正去中心化AI的开发者们梦想着完全摆脱专用训练芯片。以每秒可执行的运算次数(Teraflops)衡量,英伟达最强大的芯片性能约等于300台顶级iPhone。但全球iPhone的数量远超GPU。如果这些设备(以及其他消费级计算机)能在主人睡眠时参与训练任务呢?
这种方案面临重大挑战。使用高性能芯片的优势在于,即使分布在全球各地,它们至少都是相同型号、运行速度一致。这个优势将会消失。更棘手的是,不仅需要在每个检查点步骤汇总和重新分配训练进度,还要重新分配训练数据,因为普通消费级硬件无法存储用于尖端LLM的数TB数据。Flower公司的尼克·莱恩表示,要实现这一设想还需要计算领域的突破,而Flower正致力于将这种方法变为现实。
不过,莱恩认为这种方法带来的收益可能会逐步显现,最终产生更优秀的模型。正如分布式训练提升了模型的泛化能力,在“分片”数据集上训练的模型(每个GPU只接触部分训练数据)在面对现实世界中的意外输入时可能表现更好。这些进展或许会让亿万富豪们不得不寻找新的竞争领域。

本文为翻译作品,原文版权归原作者所有。未来学人仅作编译,文章观点不代表未来学人立场。如有侵权,请联系我们删除。

 关注未来学人,读原汁原味的全球报道 

点击👇关注,或搜索未来学人关注公众号

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:45
猪洞出麻痹,祖玛刷天尊,秘境爆开天,三把开天合火龙!
广告破天一刀99999
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部