谷歌重磅推出全新Scaling Law,抢救Transformer

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

2025年3月16日,谷歌团队宣布推出全新的Scaling Law,名为DiLoCo(Distributed Low-Communication Optimization),这一创新方法旨在解决大模型训练中的通信瓶颈和扩展性问题,为Transformer架构的未来发展提供了新的可能性。

DiLoCo的核心优势

DiLoCo是一种分布式低通信优化方法,能够在多个数据中心训练越来越大的语言模型(LLM),其核心优势包括:

更稳健:在不同模型规模下,DiLoCo的超参数保持稳定且可预测。
更优越:随着模型规模扩大,DiLoCo相较于传统数据并行训练的优势进一步提升。
更高效:DiLoCo所需的带宽比数据并行训练少几个数量级,显著降低了通信开销。
更强大:DiLoCo能够容忍比数据并行训练大得多的批大小,提升了训练效率。

DiLoCo的工作原理

DiLoCo通过以下方式优化训练过程:

内部优化:每个模型副本独立训练H个内部优化步骤,减少同步需求。
外部优化:模型通过外部优化步骤进行同步,通常引入动量机制以提升稳定性。
低通信设计:DiLoCo减少了模型副本之间的通信频率,从而降低了通信瓶颈对训练效率的影响。

实验与结果

谷歌团队通过大量实验验证了DiLoCo的有效性:

模型规模扩展性:DiLoCo在模型规模增长时表现出稳定且可预测的扩展性,尤其在参数达到几十亿以上时,评估损失显著低于数据并行训练。
批大小容忍度:DiLoCo对批大小的稳定性更强,即使批大小翻倍或翻四倍,性能影响较小。
下游任务表现:在HellaSwag、Piqa和Arc-Easy等下游任务中,DiLoCo的零样本准确率优于数据并行训练。

对AI行业的影响

DiLoCo的推出标志着大模型训练技术的重大突破,其低通信开销和高扩展性为未来AI模型的训练提供了新的可能性:

分布式训练:DiLoCo使得在多个数据中心训练超大模型成为可能,突破了传统数据并行训练的通信瓶颈。
成本与效率:通过减少带宽需求和提升批大小容忍度,DiLoCo显著降低了训练成本,并提高了训练效率。
未来方向:DiLoCo可能重新定义LLM的扩展方式,推动AI行业向更轻量化、高效率的方向发展。

总结

谷歌的DiLoCo方法为大模型训练提供了一种全新的解决方案,不仅解决了Transformer架构在扩展性上的瓶颈,还为未来AI技术的发展开辟了新的道路。这一突破性技术有望在多个领域带来深远影响,包括自然语言处理、计算机视觉等。

发表评论