英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

6 月 06, 2025 AI前沿

36 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

大多数提示，是没有客观答案的。因此，英伟达尝试了以大语言模型为裁判和以奖励模型为裁判。

在第一种情况中，英伟达向裁判的大语言模型提供提示和两个响应，并要求其比较这两个响应。

为了避免位置偏差，他们会交换响应顺序后，再次询问大语言模型。当大语言模型两次判断一致时，就会选出有效的三元组（提示、被选中的、被拒绝的）。

另外，为了进一步探索了以奖励模型为裁判的情况，英伟达要求Nemotron-4-340B-Reward 预测每个（提示、响应）对的奖励，并根据奖励决定偏好排序。

奖励基准得分显示以，奖励模型为裁判的准确性，要高于以大语言模型为裁判。

特别是在Chat-Hard类别中，选择的响应和被拒绝的响应难以区分，以奖励模型为裁判的表现，要远优于以大语言模型为裁判，平均准确率为0.87对0.54。

在这个过程中，英伟达注意到：Chat-Hard类别的评分对于合成数据生成中的偏好排序特别重要。

因此，在后来的数据集迭代中，他们转而使用以奖励模型为裁判。

从弱到强的迭代对齐

如前所述，高质量的数据对于模型的对齐至关重要。

在数据合成过程中，需要一个对齐的大语言模型来准确遵循指令。

这就引发了一系列重要的问题：哪个模型最适合作为生成器？生成器的强度与数据质量之间有何关系？如何改进数据生成器？

受到弱到强泛化的启发，英伟达开发了一种新颖的迭代方法，逐步优化数据。这种方法结合了对齐训练与数据合成的优势，使它们能够相互增强，并且持续改进。

图4展示了从弱到强的迭代对齐的工作流程。

首先，使用一个初始对齐模型来生成对话和偏好数据。然后，通过监督微调和偏好调优，利用它们对更好的基础模型进行对齐。

有趣的是，英伟达发现，教师模型并不会限制学生模型的上限——

随着基础模型和对齐数据的改进，新对齐的模型能够显著超过初始对齐模型。注意，对齐过程与基础模型的预训练是并行进行的。

在第一次迭代中，英伟达选择了Mixtral-8x7B-Instruct-v0.1作为初始对齐模型，因为它是一个具有许可的强大模型。

生成的数据用于训练Nemotron-4-340B-Base的一个中间检查点，称为340B-Interm-1-Base。

值得注意的是，340B-Interm-1-Base的表现优于Mixtral 8x7B基础模型，这反过来使得最终的340B-Interm-1-Instruct模型，能够超过Mixtral-8x7B-Instruct-v0.1模型。

这就证明，可以通过弱监督引出模型强大的能力。

在第二次迭代中，英伟达使用生成的340B-Interm-1-Instruct模型，作为新的数据生成器。

由于它比Mixtral-8x7B-Instruct-v0.1更强，第二次迭代生成的合成数据质量就更高。

生成的数据用于训练340B-Interm-2-Base模型，使其升级为340B-Interm-2-Chat模型。

这个迭代过程形成了一个自我强化的飞轮效应，改进主要来自两个方面——

(1）当使用相同的数据集时，基础模型的强度直接影响指令模型的强度，基础模型越强，指令模型也越强；

(2）当使用相同的基础模型时，数据集的质量决定了指令模型的效果，数据质量越高，指令模型也越强。

在整个对齐过程中，英伟达进行了多轮数据生成和改进，不断提升模型的质量。

附加数据源

此外，英伟达还结合了多个补充数据集，以赋予模型特定的能力。

导航菜单