AI训练新视角：CMU揭示RL在推理模型中的真正价值

八卦小灵通
科技前沿
2025年12月15日

近期，强化学习（Reinforcement Learning, RL）技术在提升语言模型的推理能力方面展现出显著潜力。然而，这种技术是否真正拓展了模型的能力边界，还是仅仅挖掘了预训练阶段已有的潜能？这一问题仍存在较大争议。为深入探讨这一现象，卡耐基梅隆大学（CMU）的研究团队设计了一套全新的实验框架，通过可控合成数据和严格隔离的训练流程，系统分析了预训练、中期训练以及RL三者对模型推理泛化能力的影响。

研究团队从两个关键维度评估了模型的表现：一是面对复杂组合任务时的外推泛化能力，二是跨不同表层语境的情境迁移能力。借助这一框架，他们重新审视了关于RL有效性的多种观点，并得出了令人信服的结论。

研究表明，只有当预训练阶段为模型留下足够的提升空间，且RL的数据针对模型当前能力范围内的任务时，RL才能带来真正的性能提升。例如，在模型已掌握op=2-10的任务基础上，若RL专注于op=11-14的挑战性任务，便能显著提高其外推能力。但如果任务难度过高（如op=15-20），超出模型的探索范围，RL的效果将大幅下降。因此，RL的数据设计必须精准定位模型的“能力边缘”，既不能太简单也不能太难。

此外，研究还发现，情境泛化能力的实现需要模型在预训练阶段接触至少1%的长尾领域内容。这表明，RL无法凭空创造能力，它必须依赖预训练提供的基础“原语”作为起点。如果预训练阶段完全没有涉及某种场景，即使在RL阶段投入大量资源，模型也难以实现有效的迁移。

在计算资源有限的情况下，如何合理分配中期训练与RL的比例成为关键。实验结果表明，引入中期训练不仅能提升模型的稳定性，还能显著增强RL的效率。对于极难任务，采用“少量中期训练+大量RL”的策略效果最佳；而对于中等难度任务，则应适当增加中期训练的比重以获得更稳定的性能表现。这说明，中期训练在训练流程中扮演着至关重要的角色，但此前对其重要性的研究仍显不足。

为了防止模型通过错误路径得出正确答案（即所谓的“奖励破解”），研究团队引入了过程级验证机制。该机制不仅检查最终答案，还会解析模型生成的思维链，并将其还原为依赖图，与真实推理过程进行比对。只有当推理步骤和答案均正确时，才算作成功。这种严格的评估方式有效提升了模型推理的忠实度。

在奖励机制方面，研究团队尝试将稀疏的结果奖励与密集的过程奖励相结合。实验数据显示，这种混合奖励方式能够显著减少结构性错误，尤其是在长链条推理任务中，带来了稳定的性能提升。这表明，过程级信号有助于规范RL的搜索方向，确保能力的提升是建立在可靠推理之上的。

综上所述，这项研究通过严谨的实验设计和多维度的评估方法，揭示了预训练、中期训练与RL之间的复杂关系。它不仅为理解大模型的训练机制提供了新的视角，也为优化训练策略提供了实践指导。未来，随着更多类似研究的开展，我们有望进一步揭开人工智能能力涌现的奥秘。

#rl #可控实验 #挖掘机 #推理 #正式版模型 #点金石 #预训练

八卦小灵通

暂无介绍....

医械网	工业品资讯
广告位	广告位

AI训练新视角：CMU揭示RL在推理模型中的真正价值

八卦小灵通

颖儿生日聚会温馨如画，好友齐聚共度美好时光

王鹤棣沈月客栈再聚首，时隔六年再合体，这次不做情侣做合伙人

延伸阅读:

突破HBM容量限制：铠侠宣布推出超高IOPS SSD，让GPU直连闪存

李彦宏牵头的AI生命科学公司赴港上市；永辉公开喊话山姆丨邦早报

高盛快评黄仁勋GTC讲话：满足了投资者两项关键预期

GTC2026｜美光科技开始为英伟达量产HBM4内存，速率比上一代HBM3E提升约2.3倍

英伟达发布“太空算力模块”，“太空版” Vera Rubin后续将推出