大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
大模型在强化学习过程中,终于知道什么经验更宝贵了!
来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO——
通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。
实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。
尤其在一些极具挑战性的任务(如AIME数学竞赛题)上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。
而且该研究也揭示了一些有趣的现象,比如滚雪球效应。
不过在展开之前,我们先来回答一个核心问题——
大模型推理的下一步,为什么我们需要“经验驱动”的训练方法?
2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards)为主导。
简单来说,就是让模型像个学生一样,不断地“刷题”(生成推理步骤),然后由“判卷老师”(奖励模型)来打分,模型根据分数高低调整自己的“解题思路”。
但RLVR存在一个天然缺陷:经验浪费。
在标准的RLVR训练中,模型生成的推理轨迹(Rollouts)只会被使用一次,之后就被丢弃。这意味着模型从来不会回头复盘,甚至不记得自己是如何答对或答错的。
以现实世界作比,它们像一个只做新题、从不复习的学生。每当模型做完一道题,无论这道题的解法多么精妙、多么有启发性,都可能都会在一次参数更新后,把这次宝贵的“解题经验”忘得一干二净。
这种“学完就忘”的模式,由于Rollout代价昂贵不仅导致了计算资源浪费,也让训练过程变得非常不稳定。
因此,学会“温故而知新”,让模型根据“错题本”,把每一次宝贵的成功经验都内化为自己的能力对训练效率和能力提升都至关重要。
值得注意的是,强化学习著名学者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:
延伸阅读:
谷歌相册新功能曝光:用AI把你的照片变成表情包
IT之家 10 月 23 日消息,据科技媒体 Android Authority 今天报道,开发者们最近在 7.51.0...
研究称苹果隔空投送 AirDrop 导致 Wi-Fi 无线“心跳式”延迟抖动
IT之家 10 月 23 日消息,科技媒体 theregister 今天(10 月 23 日)发布博文,报道称在 RIP...
曹操出行开通境外打车服务,首批覆盖新加坡、韩国等 6 国 10 城
IT之家 10 月 23 日消息,曹操出行今日宣布开通境外打车服务,首批覆盖新加坡、韩国、马来西亚、泰国、菲律宾、越南等...
荣耀 YOYO 智能体实现双 11 自动领券,中国 AI 科技实现全球引领
10 月 15 日,荣耀发布自进化 AI 原生手机 Magic8 系列,宣告行业从“iPhone 时代”迈入“AI Ph...