字节发布全新数学推理模型:突破性技术实现竞赛成绩飞跃

字节最新研发的数学推理专用模型,在近期的国际数学奥林匹克竞赛中取得显著进展。这款名为Seed Prover 1.5的系统,通过创新性的技术手段,在短时间内完成了多项高难度数学题目的解答,展现出强大的计算能力和推理水平。

该模型在16.5小时内成功解决了2025年IMO比赛的前五道题目,仅在一道题目上出现失误,最终获得35分,达到金牌标准。这一成绩与谷歌Gemini的官方认证结果持平,显示出其在数学领域的卓越表现。相较于字节此前的模型,Seed Prover 1.5在效率和准确性方面均有明显提升。

Seed Prover 1.5不仅在IMO比赛中表现出色,还在北美本科数学竞赛Putnam中取得了优异成绩。尽管该模型尚未开源,但其技术报告已公开,为学术界提供了宝贵的参考。

在技术层面,Seed Prover 1.5强调了大规模强化学习对数学模型性能的提升作用。研究显示,增加计算资源可以有效提高解题率,验证了测试时Scaling和训练时Scaling的有效性。

模型的核心创新包括Agentic Prover和Sketch Model。Agentic Prover采用形式化数学推理方式,利用Lean等工具构建可验证的证明。这种方式虽然更具挑战性,但能确保结果的可靠性。相比之下,传统的Step-prover和Whole-prover方法各有局限,而Agentic Prover通过调用多种工具,实现了更高效的推理过程。

Sketch Model则专注于模拟人类数学家的思考方式。它能够将自然语言证明拆解为多个引理,并保留整体逻辑结构。这种分步处理的方式降低了复杂问题的难度,提高了模型的适应性和灵活性。

在训练过程中,Seed Prover 1.5采用了混合奖励信号的强化学习策略。通过Lean编译器验证草图的正确性,结合自然语言Prover检查引理的数学有效性,并利用Rubric评分模型评估草稿的整体质量。这种多维度的评估机制确保了模型在不同阶段都能获得有效的反馈。

测试时的工作流程展示了Seed Prover 1.5的高效协作能力。Natural Language Prover提供高层直觉,Sketch Model负责逻辑拆解,Agentic Prover则并行处理各个引理。如果某个引理难以解决,系统会递归调用Sketch Model再次拆解。这种分层协作机制避免了错误累积,提升了整体推理的成功率。

研究人员还验证了该系统的测试时Scaling特性。结果显示,随着计算资源的增加,模型对问题的解决率呈对数线性增长。这一发现为未来模型优化提供了重要依据。

Seed Prover 1.5的研究团队来自字节Seed AI4Math团队,成员包括多位来自知名高校的专家。他们分别毕业于清华大学、牛津大学和卡内基梅隆大学,具备深厚的数学和计算机科学背景。

这项研究不仅推动了数学推理模型的发展,也为人工智能在数学领域的应用提供了新的方向。随着技术的不断进步,未来有望看到更多类似的创新成果。

暂无介绍....

延伸阅读:

“一降价你就像狗一样跑来”,罗技中国就不当广告致歉

3月26日,罗技中国发布致歉声明,就抖音平台“罗技G官方旗舰店”发布的“当我一降价,你还不是像狗一样跑过来”不当广告内容...

摸鱼小能手
2026年3月27日
松江正打造“从芯片到星座、从终端到网络”产业图景

当第六代移动通信从技术愿景迈向标准化征程,全球围绕未来十年信息基础设施格局与产业话语权的竞争骤然加速。2026年政府工作...

八卦小灵通
2026年3月27日
全球观·中国策丨诺奖得主彼得·豪伊特:人工智能将主导制造业数智化转型进程

“十五五”规划:中国“新蓝图” 世界“新机遇”编者按开局之年,中国发展迈入转型关键期。如何把握中国机遇、共绘发展新篇?本...

八卦小灵通
2026年3月27日
全球观·中国策丨诺奖得主克里斯多夫·皮萨里德斯:把握好创新与治理的平衡,AI将释放巨大效益

“十五五”规划:中国“新蓝图” 世界“新机遇”编者按开局之年,中国发展迈入转型关键期。如何把握中国机遇、共绘发展新篇?本...

娱乐早知道
2026年3月27日
林俊旸离职后首发长文;月之暗面考虑赴港IPO丨邦早报

【知情人士:月之暗面考虑赴港IPO】据知情人士透露,月之暗面正初步考虑在香港进行首次公开募股。上述消息人士表示,该公司已...

娱乐大事件
2026年3月27日