AI训练新视角:CMU揭示RL在推理模型中的真正价值
近期,强化学习(Reinforcement Learning, RL)技术在提升语言模型的推理能力方面展现出显著潜力。然而,这种技术是否真正拓展了模型的能力边界,还是仅仅挖掘了预训练阶段已有的潜能?这一问题仍存在较大争议。为深入探讨这一现象,卡耐基梅隆大学(CMU)的研究团队设计了一套全新的实验框架,通过可控合成数据和严格隔离的训练流程,系统分析了预训练、中期训练以及RL三者对模型推理泛化能力的影响。
研究团队从两个关键维度评估了模型的表现:一是面对复杂组合任务时的外推泛化能力,二是跨不同表层语境的情境迁移能力。借助这一框架,他们重新审视了关于RL有效性的多种观点,并得出了令人信服的结论。
研究表明,只有当预训练阶段为模型留下足够的提升空间,且RL的数据针对模型当前能力范围内的任务时,RL才能带来真正的性能提升。例如,在模型已掌握op=2-10的任务基础上,若RL专注于op=11-14的挑战性任务,便能显著提高其外推能力。但如果任务难度过高(如op=15-20),超出模型的探索范围,RL的效果将大幅下降。因此,RL的数据设计必须精准定位模型的“能力边缘”,既不能太简单也不能太难。
此外,研究还发现,情境泛化能力的实现需要模型在预训练阶段接触至少1%的长尾领域内容。这表明,RL无法凭空创造能力,它必须依赖预训练提供的基础“原语”作为起点。如果预训练阶段完全没有涉及某种场景,即使在RL阶段投入大量资源,模型也难以实现有效的迁移。
在计算资源有限的情况下,如何合理分配中期训练与RL的比例成为关键。实验结果表明,引入中期训练不仅能提升模型的稳定性,还能显著增强RL的效率。对于极难任务,采用“少量中期训练+大量RL”的策略效果最佳;而对于中等难度任务,则应适当增加中期训练的比重以获得更稳定的性能表现。这说明,中期训练在训练流程中扮演着至关重要的角色,但此前对其重要性的研究仍显不足。
为了防止模型通过错误路径得出正确答案(即所谓的“奖励破解”),研究团队引入了过程级验证机制。该机制不仅检查最终答案,还会解析模型生成的思维链,并将其还原为依赖图,与真实推理过程进行比对。只有当推理步骤和答案均正确时,才算作成功。这种严格的评估方式有效提升了模型推理的忠实度。
在奖励机制方面,研究团队尝试将稀疏的结果奖励与密集的过程奖励相结合。实验数据显示,这种混合奖励方式能够显著减少结构性错误,尤其是在长链条推理任务中,带来了稳定的性能提升。这表明,过程级信号有助于规范RL的搜索方向,确保能力的提升是建立在可靠推理之上的。
综上所述,这项研究通过严谨的实验设计和多维度的评估方法,揭示了预训练、中期训练与RL之间的复杂关系。它不仅为理解大模型的训练机制提供了新的视角,也为优化训练策略提供了实践指导。未来,随着更多类似研究的开展,我们有望进一步揭开人工智能能力涌现的奥秘。
延伸阅读:
人工智能创新峰会落地厦门 共绘智能未来新蓝图
来源:环球网12月12日,第六届中国人工智能大赛配套论坛在厦门成功举办。本届大赛由国家互联网信息办公室、公安部指导,国家...
全球贸易稳步增长,中国跨境电商持续发力
21世纪经济报道记者 董静怡海关总署:今年前11个月我国货物贸易进出口同比增长3.6%海关总署12月8日对外公布,今年前...
美团电商入口悄然下线,战略重心转向新方向
12月15日,美团团好货业务发布内部邮件,宣布食杂零售管理团队经研究决定,暂停团好货业务,聚焦探索零售新业态。公开资料显...
AI训练新视角:CMU揭示RL在推理模型中的真正价值
机器之心报道机器之心编辑部近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。然而,后训练究竟是真正扩...
