英伟达nGPT重塑Transformer,AI训练速度暴增20倍!

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

毋庸置疑,Transformer架构是现代大模型的基础。

不过,当前基于Transformer搭建的大模型都是计算密集型的,需要耗费大量的资源和时间。

为了改进其训练稳定性、推理成本、上下文长度、鲁棒性等方面,AI科学家已进行了大量的修改尝试。

其中,最突出的发现是,归一化技术对于Transformer性能改善起着重要作用,比如LayerNorm和RMSNorm。

另一种模型归一化方法是,通过权重衰减(weight decay)控制权重范数。

不过,最新研究又对权重衰减的作用进行评估,并且转向更多地关注旋转,而非仅仅关注向量范数。

越来越多的证据表明,在超球面上进行表示学习与更稳定的训练、更大的嵌入空间可分离性以及在下游任务上的更好性能相关。

而且,还有新研究表明,Transformer隐式地执行梯度下降作为元优化器。

由此,英伟达团队提出了,在归一化Transformer新视角下,统一该领域的各种发现和观察。

这项研究的主要贡献在于:

– 在超球面上优化网络参数

建议将形成网络矩阵嵌入维度的所有向量归一化,使其位于单位范数超球面上。这种方法将矩阵-向量乘法转化为余弦相似度的计算,其范围限定在 [-1,1] 之间。而且归一化消除了对权重衰减的需求。

– 归一化Transformer作为超球面上的可变度量优化器

归一化Transformer本身在超球面上执行多步优化(每层两步),其中注意力和MLP更新的每一步,都由特征学习率控制——这些是可学习的可变度量矩阵的对角线元素。

对于输入序列中的每个token ,归一化Transformer的优化路径从超球面上对应于其输入嵌入向量的点开始,移动到超球面上最能预测下一个的嵌入向量的点。

– 更快的收敛

研究证明,归一化Transformer将达到相同精度所需的训练步骤减少了4-20倍。

发表评论