150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

不同于大多数模型使用字母缩略起名,论文作者在脚注中解释道,Lory是一种羽毛有彩虹颜色的鹦鹉,和「软MoE」的精神非常相似。

论文的作者团队也可以称之为「明星阵容」。

论文地址:https://arxiv.org/abs/2405.03133

主要作者之一陈丹琦是普林斯顿大学计算机科学系的助理教授,也是普林斯顿NLP小组共同领导人之一。她本科毕业于清华大学姚班,2018年在斯坦福大学获得博士学位,导师是大名鼎鼎的Christopher Manning。

斯坦福教授、NLP领域泰斗Dan Jurafsky曾这样评价她:「她在发现重要的研究问题上很有品位。她已经对该领域产生了非凡的影响,并且她的影响只会越来越大。」

Mike Lewis是Meta AI的一名研究科学家,他领导了Meta刚发布的大语言模型Llama 3的预训练工作。

他此前曾发表过多项有影响力的研究成果,包括Bart、Roberta、top-k采样等。

本文的第一作者是普林斯顿大学五年级博士生钟泽轩,导师是陈丹琪教授。

钟泽轩硕士毕业于伊利诺伊大学香槟分校,本科毕业于北京大学计算机系,曾在Meta AI和微软亚洲研究院实习,这项研究就是他在Meta实习期间完成的。

发布后,论文作者也在推特上提供了全文解读。

引入的关键技术包含两个方面,一是用因果分段路由策略取代token级别的路由,可以在保持语言模型自回归属性的同时实现高效的专家合并。

二是提出了基于相似性的数据批处理方法,如果仅仅是把随机选择的文本拼接在一起训练会导致低水平的专家模型,而将相似的文本进行分组可以使模型更加专业化。

基于这些方法,作者使用150B token的数据从头训练了一系列的Lory模型,活跃参数有0.3B和1.5B两个级别,含有最多32个专家。

与稠密模型相比,Lory的训练过程更为高效,可以用少2.5倍的步数实现相同的损失值。

研究团队使用上下文学习的方法评估Lory的能力,发现模型在常识推理、阅读理解、闭卷问答、文本分类等下游任务上都取得了很好的效果。

可以观察到,使用更多专家可以改进模型的表现。

相比目前MoE领域的SOTA模型Expert Choice(EC),Lory模型也表现出了有竞争力的性能。

2023年12月,一家名为Mistral AI的法国创业公司发布了一款性能媲美甚至优于GPT-3.5和Llama 2 70B的模型Mixtral 8x7B。

Mixtral使用了一种稀疏的MoE网络,不仅表现出了强大的性能,而且十分高效,推理速度相比Llama 2 70B提高了6倍,于是让MoE得到了开源社区的广泛关注。

甚至有人猜测,GPT-4可能也使用了MoE技术实现了超过一万亿参数的超大模型。

对于Transformer架构的语言模型,MoE主要有两个元素:

一是使用参数更为稀疏的MoE层代替密集的前馈网络层(FFN),其中每个专家都是一个独立的神经网络,甚至可以是MoE本身,从而形成层级式的MoE结构。

二是使用门控网络或路由机制决定token被发送到哪个专家,其中token的路由机制是决定MoE模型表现的关键点。

发表评论