返回列表 发布新帖
查看: 7|回复: 0

[人工智能] 字节推出形式化数学推理专用模型Seed Prover 1.5

发表于 前天 14:17 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2025-12-24 14:26 编辑

12月24日,据字节跳动Seed团队消息,近日,其推出新一代形式化数学推理专用模型 Seed Prover 1.5 ,通过大规模的 Agentic RL 训练,其推理能力和推理效率取得显著进步。

相比上一代模型,Seed Prover 1.5 在16.5小时内,针对 IMO 2025 的前 5 道题目生成了完整可编译验证的 Lean 证明代码,换算成绩为 35/42,达到此前 IMO 评分标准的金牌分数线。

针对北美本科级别数学竞赛 Putnam,Seed Prover 1.5 用时 9 小时,对 12 道 Putnam 2025 赛题中的 11 道生成了可编译验证的 Lean 代码。更系统的评估中,Seed Prover 1.5 表现出色:它在完整的 Putnam 历史评估集上解决了 88% 的问题,在代表硕士数学难度的 Fate-H 和代表博士生数学难度的 Fate-X 评估集上,分别解决了 80% 和 33% 的问题,刷新了形式化数学推理模型在这几个评测集上的 SOTA 表现。

607B22DF-C1E9-446b-8E36-9BD43A2520BC.png

据悉,Seed Prover 1.5提出了一种全新的 Agentic Prover 架构来弥合与自然语言推理的差距,其平衡了两种形式化证明方式的优缺点:模型将 Lean 语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。

Mathlib 搜索工具:类似于程序员查阅技术文档,模型可以主动检索 Lean 庞大的数学库 Mathlib,寻找可用的定理和定义,而非依赖不可靠的隐式记忆。

Python 代码执行:遇到需要计算的部分,模型可以编写并运行 Python 脚本来辅助验证直觉。

增量式引理验证:模型不再被迫一次性生成整个证明,而是将复杂问题拆解为若干引理。每证明出一个引理,系统就会将其保留并复用,作为后续推理的基石。

这种设计让模型能够灵活调整策略:既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又可以随时调用工具验证猜想,最后将经过验证的模块拼装成完整的形式化证明。


DED3F2B1-CE07-4567-AC8A-1FDB554B7567.png

Seed 团队表示,Seed Prover 1.5采用了Agentic RL。其在构建的环境中让模型进行了海量的自我探索和训练。 Lean编译器提供了绝对客观的“对/错”反馈,为强化学习提供了最优质的奖励信号。随着 RL 训练步数的增加,模型在训练集上的证明通过率从初始的 50% 升至接近 90%。

另外,在对比测试中,Seed Prover 1.5 仅需少量的计算资源,就能在 Putnam 和 Fate 等高难度数据集上,击败消耗大量算力的上一代 Seed Prover 模型。这表明 Seed Prover 1.5 在推理能力与效率上迈上了新台阶,让形式化证明进一步走向实用化。


23ACDFB9-0877-4ed7-96C3-6CECCA7A21DF.png

为打通自然语言与形式语言的界限,Seed 团队还训练了一个 Sketch Model,模拟人类数学家解决问题的方式:先构建高层的证明框架,再补充细节。

而基于 Sketch Model,Seed 团队还构建了一套高效的测试工作流,形成一个分层级的多智能体协作系统:由Natural Language Prover 负责提供高层的数学直觉和自然语言证明,Sketch Model再将自然语言转化为形式化的引理结构,Agentic Prover 并行地攻克每一个被拆解出的引理。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.127037 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表