清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

科研动态3个月前更新清华大学新闻网

1,548 6 0

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议 (CVIPPR 2026)

文章导读

当强化学习遇见大语言模型，我们是否高估了它的能力？清华团队在国际顶会NeurIPS上以颠覆性研究斩获最佳论文亚军，直击学术界普遍假设的核心痛点！其论文精妙揭示：强化学习虽能提高输出效率，却无法突破基础模型的推理边界——它只是在已知分布中优化。这一重磅发现不仅颠覆了RLVR训练的传统认知，更将激发人类重新设计强化学习范式，以真正解锁大模型的无限潜能。想知道这记警钟如何敲响？两位青年学者如何完成关键论证？点击解密人工智能的认知边界突破战！

— 内容由好学术AI分析文章内容生成，仅供参考。

12月6日，在美国圣地亚哥举行的第39届神经信息处理系统会议（Conference on Neural Information Processing Systems，NeurIPS）上，清华大学自动化系宋士吉教授、黄高副教授团队的论文“强化学习是否真的能激发大语言模型产生超越基础模型的推理能力？”（Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model?）获得最佳论文亚军奖（Best Paper Runner-Up Award）。

清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

获奖合影（中间三位为自动化系获奖学生）

清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

获奖证书

评审委员会对该论文的评价为：“本文针对大语言模型（LLM）研究中一个被广泛接受的基础性假设——带有可验证奖励的强化学习（RLVR）激发了大模型新的推理能力——给出了一种精妙且至关重要的否定性发现。研究表明，在不同的模型类型、任务和算法中，RLVR训练虽能提高正确输出的采样效率，却无法拓展基础模型已有的推理能力。强化学习缩小了探索范围，受奖励的轨迹得到强化，但更广泛的解决方案空间却缩小了。这表明RLVR是在基础分布范围内进行优化，而非超越基础分布。这是一项重要发现，有望激励人们研发全新的强化学习范式，使其能够应对广阔的动作空间，并真正拓展大语言模型的推理能力。”

论文两位共同第一作者分别为清华大学自动化系2021级博士生乐洋和2022级本科生陈之琪。

NeurIPS是人工智能领域的旗舰学术会议之一，其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。

论文链接：

https://arxiv.org/abs/2504.13837

供稿：自动化系

编辑：李华山

审核：郭玲