大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
大模型在强化学习过程中,终于知道什么经验更宝贵了!
来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO——
通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。
实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。
尤其在一些极具挑战性的任务(如AIME数学竞赛题)上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。
而且该研究也揭示了一些有趣的现象,比如滚雪球效应。
不过在展开之前,我们先来回答一个核心问题——
大模型推理的下一步,为什么我们需要“经验驱动”的训练方法?
2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards)为主导。
简单来说,就是让模型像个学生一样,不断地“刷题”(生成推理步骤),然后由“判卷老师”(奖励模型)来打分,模型根据分数高低调整自己的“解题思路”。
但RLVR存在一个天然缺陷:经验浪费。
在标准的RLVR训练中,模型生成的推理轨迹(Rollouts)只会被使用一次,之后就被丢弃。这意味着模型从来不会回头复盘,甚至不记得自己是如何答对或答错的。
以现实世界作比,它们像一个只做新题、从不复习的学生。每当模型做完一道题,无论这道题的解法多么精妙、多么有启发性,都可能都会在一次参数更新后,把这次宝贵的“解题经验”忘得一干二净。
这种“学完就忘”的模式,由于Rollout代价昂贵不仅导致了计算资源浪费,也让训练过程变得非常不稳定。
因此,学会“温故而知新”,让模型根据“错题本”,把每一次宝贵的成功经验都内化为自己的能力对训练效率和能力提升都至关重要。
值得注意的是,强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:
延伸阅读:
2026北京车展今日开幕:规模跃居全球首位,首发车181台
IT之家 4 月 24 日消息,2026 北京国际汽车展览会将于 2026 年 4 月 24 日-5 月 3 日在中国国...
俞浩为什么喜欢王传福?
北京车展今日开幕,1451款车参展,大型SUV风头正劲,各路势力火拼“智驾”
本文来源:时代财经 作者:贺晴 林心林4月24日,2026北京国际汽车展览会(以下简称北京车展)正式开幕。本届车展首次采...
AI漫剧与微短剧版权如何保护?这场研讨会达成这些共识
4月20日,爱奇艺宣布百余位明星入驻旗下平台“纳逗Pro”的AI艺人库,引爆全网。次日上午,爱奇艺创始人兼CEO龚宇连发...
