清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
文章导读
当强化学习遇见大语言模型,我们是否高估了它的能力?清华团队在国际顶会NeurIPS上以颠覆性研究斩获最佳论文亚军,直击学术界普遍假设的核心痛点!其论文精妙揭示:强化学习虽能提高输出效率,却无法突破基础模型的推理边界——它只是在已知分布中优化。这一重磅发现不仅颠覆了RLVR训练的传统认知,更将激发人类重新设计强化学习范式,以真正解锁大模型的无限潜能。想知道这记警钟如何敲响?两位青年学者如何完成关键论证?点击解密人工智能的认知边界突破战!
— 内容由好学术AI分析文章内容生成,仅供参考。

12月6日,在美国圣地亚哥举行的第39届神经信息处理系统会议(Conference on Neural Information Processing Systems,NeurIPS)上,清华大学自动化系宋士吉教授、黄高副教授团队的论文“强化学习是否真的能激发大语言模型产生超越基础模型的推理能力?”(Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model?)获得最佳论文亚军奖(Best Paper Runner-Up Award)。

清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

获奖合影(中间三位为自动化系获奖学生)

清华大学自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖

获奖证书

评审委员会对该论文的评价为:“本文针对大语言模型(LLM)研究中一个被广泛接受的基础性假设——带有可验证奖励的强化学习(RLVR)激发了大模型新的推理能力——给出了一种精妙且至关重要的否定性发现。研究表明,在不同的模型类型、任务和算法中,RLVR训练虽能提高正确输出的采样效率,却无法拓展基础模型已有的推理能力。强化学习缩小了探索范围,受奖励的轨迹得到强化,但更广泛的解决方案空间却缩小了。这表明RLVR是在基础分布范围内进行优化,而非超越基础分布。这是一项重要发现,有望激励人们研发全新的强化学习范式,使其能够应对广阔的动作空间,并真正拓展大语言模型的推理能力。”

论文两位共同第一作者分别为清华大学自动化系2021级博士生乐洋和2022级本科生陈之琪。

NeurIPS是人工智能领域的旗舰学术会议之一,其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。

论文链接:

https://arxiv.org/abs/2504.13837

供稿:自动化系

编辑:李华山

审核:郭玲

© 版权声明
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第三届机器学习与自动化国际学术会议(CONF-MLA 2025)
热门国际学术会议推荐 | 立即查看超全会议列表

1 条评论

  • SunhatDreamer
    SunhatDreamer 读者

    清华牛啊!国货之光必须支持!👍

    上海上海市
    回复