谷歌诚意之作,开源9B、27B版Gemma2,主打高效、经济
Gemma是谷歌团队推出的一系列轻量级、先进的开源模型,基于与Gemini模型相同的研究和技术构建的文本生成解码器大型语言模型。
Gemma 2训练数据量大约是第一代的两倍,并沿用了上一代的基本架构,但进行了全方位的改良。
局部滑动窗口和全局注意力
Gemma 2交替使用局部滑动窗口注意力和全局注意力层级进行切换,局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的设置为8192个token。
在正确捕捉文本细节的同时,又能保持对上下文和全局的正确理解。
Logit软上限
按照Gemini 1.5版,Gemma对每个注意层和最终层的logit进行软封顶。
通过将logits设置在一个合理的固定范围内,可以有效提升训练的稳定性,防止内容过长。
使用RMSNorm进行前后归一化
为了使训练更加稳定,Gemma 2运用了RMSNorm对每个转换层、注意层和反馈层的输入和输出进行归一化。
这一步和Logit软上限都使得模型训练更稳定平滑,不易出现崩溃。
分组查询注意力
GQA通过对于注意力分组,将算力用于一组注意力的组内。
在计算时显示出更快的数据处理速度,同时还能保持下游性能。
传统训练大语言模型的方法主要是根据上一个Token,预测下一个Token,需要大量的数据进行训练。
但是,人类的学习过程并不依赖走量的知识输入。比如,一位学生由于阅读原著的需要学习一门外语,他并不需要看遍所有的书籍,只需要以一本书为纲,通过理解后融会贯通。
而知识蒸馏法与人的学习过程更加类似。一个小模型向另一个已经进行过预训练的大模型学习,通过这种方式助产小模型对于Token的预测。
站在老师模型的肩膀上,学生模型能用较少的训练数据达到更好的效果。
发表评论