字节发布全新数学推理模型:突破性技术实现竞赛成绩飞跃

字节最新研发的数学推理专用模型,在近期的国际数学奥林匹克竞赛中取得显著进展。这款名为Seed Prover 1.5的系统,通过创新性的技术手段,在短时间内完成了多项高难度数学题目的解答,展现出强大的计算能力和推理水平。

该模型在16.5小时内成功解决了2025年IMO比赛的前五道题目,仅在一道题目上出现失误,最终获得35分,达到金牌标准。这一成绩与谷歌Gemini的官方认证结果持平,显示出其在数学领域的卓越表现。相较于字节此前的模型,Seed Prover 1.5在效率和准确性方面均有明显提升。

Seed Prover 1.5不仅在IMO比赛中表现出色,还在北美本科数学竞赛Putnam中取得了优异成绩。尽管该模型尚未开源,但其技术报告已公开,为学术界提供了宝贵的参考。

在技术层面,Seed Prover 1.5强调了大规模强化学习对数学模型性能的提升作用。研究显示,增加计算资源可以有效提高解题率,验证了测试时Scaling和训练时Scaling的有效性。

模型的核心创新包括Agentic Prover和Sketch Model。Agentic Prover采用形式化数学推理方式,利用Lean等工具构建可验证的证明。这种方式虽然更具挑战性,但能确保结果的可靠性。相比之下,传统的Step-prover和Whole-prover方法各有局限,而Agentic Prover通过调用多种工具,实现了更高效的推理过程。

Sketch Model则专注于模拟人类数学家的思考方式。它能够将自然语言证明拆解为多个引理,并保留整体逻辑结构。这种分步处理的方式降低了复杂问题的难度,提高了模型的适应性和灵活性。

在训练过程中,Seed Prover 1.5采用了混合奖励信号的强化学习策略。通过Lean编译器验证草图的正确性,结合自然语言Prover检查引理的数学有效性,并利用Rubric评分模型评估草稿的整体质量。这种多维度的评估机制确保了模型在不同阶段都能获得有效的反馈。

测试时的工作流程展示了Seed Prover 1.5的高效协作能力。Natural Language Prover提供高层直觉,Sketch Model负责逻辑拆解,Agentic Prover则并行处理各个引理。如果某个引理难以解决,系统会递归调用Sketch Model再次拆解。这种分层协作机制避免了错误累积,提升了整体推理的成功率。

研究人员还验证了该系统的测试时Scaling特性。结果显示,随着计算资源的增加,模型对问题的解决率呈对数线性增长。这一发现为未来模型优化提供了重要依据。

Seed Prover 1.5的研究团队来自字节Seed AI4Math团队,成员包括多位来自知名高校的专家。他们分别毕业于清华大学、牛津大学和卡内基梅隆大学,具备深厚的数学和计算机科学背景。

这项研究不仅推动了数学推理模型的发展,也为人工智能在数学领域的应用提供了新的方向。随着技术的不断进步,未来有望看到更多类似的创新成果。

暂无介绍....

延伸阅读:

特斯拉用户自述被FSD救命:突发心梗,Model Y将其送到医院

IT之家 2 月 9 日消息,特斯拉 FSD 技术在美国佐治亚州的一起医疗紧急事件中发挥了救命作用:一名 Model Y...

娱乐早知道
2026年2月9日
前飞书表格技术负责人创业:用AI表格嵌入一切,“喂养”AI丨涌现新项目

AI表格更应该交由Agent使用,由AI最后交付结果,供人类审核。文|邓咏仪编辑|苏建勋一句话介绍Univer将电子表格...

娱乐大事件
2026年2月9日
ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

2025 年 1 月 20 日,DeepSeek 发布了推理大模型 DeepSeek-R1,在学术界和工业界引发了对大模...

娱乐早知道
2026年2月9日
智界新车计划曝光!赵长江回应S7更新换代:有 但不是今年

快科技2月9日消息,今日,智界汽车执行董事及执行副总裁赵长江在回应网友关于"智界S7还会更新换代吗"这一问题时,明确表示...

娱乐早知道
2026年2月9日
智元200余台机器人撑起整台晚会 实现多个“从0到1”突破

“今晚不打工,我们要在舞台上打call”!2月8日20:00,由浦东具身智能代表企业——智元agibot主办的全球首个大...

摸鱼小能手
2026年2月9日