英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

大多数提示,是没有客观答案的。因此,英伟达尝试了以大语言模型为裁判和以奖励模型为裁判。

在第一种情况中,英伟达向裁判的大语言模型提供提示和两个响应,并要求其比较这两个响应。

为了避免位置偏差,他们会交换响应顺序后,再次询问大语言模型。当大语言模型两次判断一致时,就会选出有效的三元组(提示、被选中的、被拒绝的)。

另外,为了进一步探索了以奖励模型为裁判的情况,英伟达要求Nemotron-4-340B-Reward 预测每个(提示、响应)对的奖励,并根据奖励决定偏好排序。

奖励基准得分显示以,奖励模型为裁判的准确性,要高于以大语言模型为裁判。

特别是在Chat-Hard类别中,选择的响应和被拒绝的响应难以区分,以奖励模型为裁判的表现,要远优于以大语言模型为裁判,平均准确率为0.87对0.54。

在这个过程中,英伟达注意到:Chat-Hard类别的评分对于合成数据生成中的偏好排序特别重要。

因此,在后来的数据集迭代中,他们转而使用以奖励模型为裁判。

从弱到强的迭代对齐

如前所述,高质量的数据对于模型的对齐至关重要。

在数据合成过程中,需要一个对齐的大语言模型来准确遵循指令。

这就引发了一系列重要的问题:哪个模型最适合作为生成器?生成器的强度与数据质量之间有何关系?如何改进数据生成器?

受到弱到强泛化的启发,英伟达开发了一种新颖的迭代方法,逐步优化数据。这种方法结合了对齐训练与数据合成的优势,使它们能够相互增强,并且持续改进。

图4展示了从弱到强的迭代对齐的工作流程。

首先,使用一个初始对齐模型来生成对话和偏好数据。然后,通过监督微调和偏好调优,利用它们对更好的基础模型进行对齐。

有趣的是,英伟达发现,教师模型并不会限制学生模型的上限——

随着基础模型和对齐数据的改进,新对齐的模型能够显著超过初始对齐模型。注意,对齐过程与基础模型的预训练是并行进行的。

在第一次迭代中,英伟达选择了Mixtral-8x7B-Instruct-v0.1作为初始对齐模型,因为它是一个具有许可的强大模型。

生成的数据用于训练Nemotron-4-340B-Base的一个中间检查点,称为340B-Interm-1-Base。

值得注意的是,340B-Interm-1-Base的表现优于Mixtral 8x7B基础模型,这反过来使得最终的340B-Interm-1-Instruct模型,能够超过Mixtral-8x7B-Instruct-v0.1模型。

这就证明,可以通过弱监督引出模型强大的能力。

在第二次迭代中,英伟达使用生成的340B-Interm-1-Instruct模型,作为新的数据生成器。

由于它比Mixtral-8x7B-Instruct-v0.1更强,第二次迭代生成的合成数据质量就更高。

生成的数据用于训练340B-Interm-2-Base模型,使其升级为340B-Interm-2-Chat模型。

这个迭代过程形成了一个自我强化的飞轮效应,改进主要来自两个方面——

(1)当使用相同的数据集时,基础模型的强度直接影响指令模型的强度,基础模型越强,指令模型也越强;

(2)当使用相同的基础模型时,数据集的质量决定了指令模型的效果,数据质量越高,指令模型也越强。

在整个对齐过程中,英伟达进行了多轮数据生成和改进,不断提升模型的质量。

附加数据源

此外,英伟达还结合了多个补充数据集,以赋予模型特定的能力。

发表评论