英伟达nGPT重塑Transformer,AI训练速度暴增20倍!
毋庸置疑,Transformer架构是现代大模型的基础。
不过,当前基于Transformer搭建的大模型都是计算密集型的,需要耗费大量的资源和时间。
为了改进其训练稳定性、推理成本、上下文长度、鲁棒性等方面,AI科学家已进行了大量的修改尝试。
其中,最突出的发现是,归一化技术对于Transformer性能改善起着重要作用,比如LayerNorm和RMSNorm。
另一种模型归一化方法是,通过权重衰减(weight decay)控制权重范数。
不过,最新研究又对权重衰减的作用进行评估,并且转向更多地关注旋转,而非仅仅关注向量范数。
越来越多的证据表明,在超球面上进行表示学习与更稳定的训练、更大的嵌入空间可分离性以及在下游任务上的更好性能相关。
而且,还有新研究表明,Transformer隐式地执行梯度下降作为元优化器。
由此,英伟达团队提出了,在归一化Transformer新视角下,统一该领域的各种发现和观察。
这项研究的主要贡献在于:
– 在超球面上优化网络参数
建议将形成网络矩阵嵌入维度的所有向量归一化,使其位于单位范数超球面上。这种方法将矩阵-向量乘法转化为余弦相似度的计算,其范围限定在 [-1,1] 之间。而且归一化消除了对权重衰减的需求。
– 归一化Transformer作为超球面上的可变度量优化器
归一化Transformer本身在超球面上执行多步优化(每层两步),其中注意力和MLP更新的每一步,都由特征学习率控制——这些是可学习的可变度量矩阵的对角线元素。
对于输入序列中的每个token ,归一化Transformer的优化路径从超球面上对应于其输入嵌入向量的点开始,移动到超球面上最能预测下一个的嵌入向量的点。
– 更快的收敛
研究证明,归一化Transformer将达到相同精度所需的训练步骤减少了4-20倍。
发表评论