英伟达nGPT重塑Transformer，AI训练速度暴增20倍！

6 月 06, 2025 AI前沿

5 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

毋庸置疑，Transformer架构是现代大模型的基础。

不过，当前基于Transformer搭建的大模型都是计算密集型的，需要耗费大量的资源和时间。

为了改进其训练稳定性、推理成本、上下文长度、鲁棒性等方面，AI科学家已进行了大量的修改尝试。

其中，最突出的发现是，归一化技术对于Transformer性能改善起着重要作用，比如LayerNorm和RMSNorm。

另一种模型归一化方法是，通过权重衰减（weight decay）控制权重范数。

不过，最新研究又对权重衰减的作用进行评估，并且转向更多地关注旋转，而非仅仅关注向量范数。

越来越多的证据表明，在超球面上进行表示学习与更稳定的训练、更大的嵌入空间可分离性以及在下游任务上的更好性能相关。

而且，还有新研究表明，Transformer隐式地执行梯度下降作为元优化器。

由此，英伟达团队提出了，在归一化Transformer新视角下，统一该领域的各种发现和观察。

这项研究的主要贡献在于：

– 在超球面上优化网络参数

建议将形成网络矩阵嵌入维度的所有向量归一化，使其位于单位范数超球面上。这种方法将矩阵-向量乘法转化为余弦相似度的计算，其范围限定在 [-1,1] 之间。而且归一化消除了对权重衰减的需求。

– 归一化Transformer作为超球面上的可变度量优化器

归一化Transformer本身在超球面上执行多步优化（每层两步），其中注意力和MLP更新的每一步，都由特征学习率控制——这些是可学习的可变度量矩阵的对角线元素。

对于输入序列中的每个token ，归一化Transformer的优化路径从超球面上对应于其输入嵌入向量的点开始，移动到超球面上最能预测下一个的嵌入向量的点。

– 更快的收敛

研究证明，归一化Transformer将达到相同精度所需的训练步骤减少了4-20倍。

导航菜单