学术揭秘!清华大学与上海交大研究改变观念:强化学习或成大模型推理中的”障碍”

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

清华大学与上海交通大学联合发表的最新论文,对业界普遍认为”纯强化学习(RL)能提升大模型推理能力”的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。
研究团队在数学、编码和视觉推理三大领域进行了系统性实验:
研究结果引发学界激烈讨论:
研究团队提出关键区分:
强化学习更像是”能力调控器”而非”能力创造器”,它能让模型更擅长做已知的事,但难以开发新的推理路径。
这项研究为过热的大模型RL训练热潮敲响警钟,提示行业应:

学术揭秘!清华大学与上海交大研究改变观念:强化学习或成大模型推理中的 障碍

清华大学与上海交通大学的研究团队在最新研究中对强化学习(RL)在大语言模型(LLM)推理能力提升中的作用提出了挑战性观点,认为强化学习可能并非大模型推理能力提升的“加速器”,甚至在某些情况下会限制模型的推理能力。

研究背景与动机
强化学习(尤其是带有可验证奖励的强化学习,RLVR)被广泛应用于大语言模型的训练中,被认为可以提升模型的推理能力,甚至让模型学会新的推理策略。然而,清华大学LeapLab团队与上海交通大学的研究人员通过一系列实验发现,RLVR可能并未真正提升模型的推理能力,而只是提高了采样效率。

实验设计与结果
研究团队在数学、编码和视觉推理三大领域进行了系统性实验,使用了多个大语言模型系列(如Qwen-2.5和LLaMA-3.1)及其经过RL训练的变体。

发表评论