大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
大模型在强化学习过程中,终于知道什么经验更宝贵了!
来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO——
通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。
实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。
尤其在一些极具挑战性的任务(如AIME数学竞赛题)上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。
而且该研究也揭示了一些有趣的现象,比如滚雪球效应。
不过在展开之前,我们先来回答一个核心问题——
大模型推理的下一步,为什么我们需要“经验驱动”的训练方法?
2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards)为主导。
简单来说,就是让模型像个学生一样,不断地“刷题”(生成推理步骤),然后由“判卷老师”(奖励模型)来打分,模型根据分数高低调整自己的“解题思路”。
但RLVR存在一个天然缺陷:经验浪费。
在标准的RLVR训练中,模型生成的推理轨迹(Rollouts)只会被使用一次,之后就被丢弃。这意味着模型从来不会回头复盘,甚至不记得自己是如何答对或答错的。
以现实世界作比,它们像一个只做新题、从不复习的学生。每当模型做完一道题,无论这道题的解法多么精妙、多么有启发性,都可能都会在一次参数更新后,把这次宝贵的“解题经验”忘得一干二净。
这种“学完就忘”的模式,由于Rollout代价昂贵不仅导致了计算资源浪费,也让训练过程变得非常不稳定。
因此,学会“温故而知新”,让模型根据“错题本”,把每一次宝贵的成功经验都内化为自己的能力对训练效率和能力提升都至关重要。
值得注意的是,强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:
延伸阅读:
博通的AI布局迎来新机遇,高盛持续看好其长期价值
尽管博通未能如部分投资者预期那样上调2026财年的全年业绩指引,并在短期内可能面临股价回调压力,但高盛依然重申了对该公司...
新型硅碳复合负极材料取得重大突破 为高稳定性电池研发开辟新路径
人民财讯12月12日电,近期,中国科学院合肥物质院固体所王振洋研究员团队在锂离子电池硅碳复合负极材料领域取得系列进展。团...
智能硬件新风口:京东高薪引才布局端侧AI芯片
据《科创板日报》报道,京东正在招募端侧AI芯片领域人才,招聘方向集中在存算一体AI芯片领域,产品可能用于机器人、智能家电...
米老鼠助力Sora?OpenAI与迪士尼达成重磅合作
天下果然没有免费的午餐!为了让“米老鼠”加入Sora,OpenAI刚刚正式官宣与迪士尼达成合作。协议内容之一即为,Ope...
