大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型在强化学习过程中,终于知道什么经验更宝贵了!

来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO——

通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。

实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。

尤其在一些极具挑战性的任务(如AIME数学竞赛题)上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。

而且该研究也揭示了一些有趣的现象,比如滚雪球效应。

不过在展开之前,我们先来回答一个核心问题——

大模型推理的下一步,为什么我们需要“经验驱动”的训练方法?

2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards)为主导。

简单来说,就是让模型像个学生一样,不断地“刷题”(生成推理步骤),然后由“判卷老师”(奖励模型)来打分,模型根据分数高低调整自己的“解题思路”。

但RLVR存在一个天然缺陷:经验浪费。

在标准的RLVR训练中,模型生成的推理轨迹(Rollouts)只会被使用一次,之后就被丢弃。这意味着模型从来不会回头复盘,甚至不记得自己是如何答对或答错的。

以现实世界作比,它们像一个只做新题、从不复习的学生。每当模型做完一道题,无论这道题的解法多么精妙、多么有启发性,都可能都会在一次参数更新后,把这次宝贵的“解题经验”忘得一干二净。

这种“学完就忘”的模式,由于Rollout代价昂贵不仅导致了计算资源浪费,也让训练过程变得非常不稳定。

因此,学会“温故而知新”,让模型根据“错题本”,把每一次宝贵的成功经验都内化为自己的能力对训练效率和能力提升都至关重要。

值得注意的是,强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:

暂无介绍....

延伸阅读:

周浩能给千问带来什么?答案就在他为Gemini所做的工作之中

林俊旸深夜发文“告别”千问,在AI圈中引起轩然大波,也让“周浩”这个名字进入公众视野。2026年1月,周浩低调加入阿里,...

娱乐早知道
2026年3月6日
OpenAI发布最新模型GPT-5.4

新华社旧金山3月5日电(记者吴晓凌)美国开放人工智能研究中心(OpenAI)5日宣布推出人工智能模型GPT-5的最新升级...

娱乐早知道
2026年3月6日
MWC 2026:当AI拥有“身体”,中国掌握"造物权"

2026年,从虚拟世界走向现实世界,AI有了新的叙事。两个月前的CES上,物理AI成为全球科技的焦点,上千家展商展示了众...

娱乐大事件
2026年3月6日
江河联评丨郑州 合肥 成都 西安 四帆竞发智能车

江河奔腾,两会聚智。郑州、合肥、成都、西安,被誉为中西部新能源汽车 “四大黑马城市”。四城同处内陆腹地,各握一手好牌。《...

娱乐早知道
2026年3月6日
联想系新机测试2亿像素长焦,1.5K屏幕推进遇阻?

IT之家 3 月 6 日消息,博主 @数码闲聊站 今天在微博表示,联想系新机正在测试 2 亿像素大底潜望长焦,最快今年就...

摸鱼小能手
2026年3月6日