字节推出形式化数学推理专用模型Seed Prover 1.5

as22 · 发表于 2025-12-24 14:17:25

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-12-24 14:26 编辑

12月24日，据字节跳动Seed团队消息，近日，其推出新一代形式化数学推理专用模型 Seed Prover 1.5 ，通过大规模的 Agentic RL 训练，其推理能力和推理效率取得显著进步。

相比上一代模型，Seed Prover 1.5 在16.5小时内，针对 IMO 2025 的前 5 道题目生成了完整可编译验证的 Lean 证明代码，换算成绩为 35/42，达到此前 IMO 评分标准的金牌分数线。

针对北美本科级别数学竞赛 Putnam，Seed Prover 1.5 用时 9 小时，对 12 道 Putnam 2025 赛题中的 11 道生成了可编译验证的 Lean 代码。更系统的评估中，Seed Prover 1.5 表现出色：它在完整的 Putnam 历史评估集上解决了 88% 的问题，在代表硕士数学难度的 Fate-H 和代表博士生数学难度的 Fate-X 评估集上，分别解决了 80% 和 33% 的问题，刷新了形式化数学推理模型在这几个评测集上的 SOTA 表现。

据悉，Seed Prover 1.5提出了一种全新的 Agentic Prover 架构来弥合与自然语言推理的差距，其平衡了两种形式化证明方式的优缺点：模型将 Lean 语言视为一种工具，且在证明过程中可以自主地调用其他多种工具。

Mathlib 搜索工具：类似于程序员查阅技术文档，模型可以主动检索 Lean 庞大的数学库 Mathlib，寻找可用的定理和定义，而非依赖不可靠的隐式记忆。

Python 代码执行：遇到需要计算的部分，模型可以编写并运行 Python 脚本来辅助验证直觉。

增量式引理验证：模型不再被迫一次性生成整个证明，而是将复杂问题拆解为若干引理。每证明出一个引理，系统就会将其保留并复用，作为后续推理的基石。

这种设计让模型能够灵活调整策略：既可以像人类一样先使用“草稿纸”（自然语言）进行推理，又可以随时调用工具验证猜想，最后将经过验证的模块拼装成完整的形式化证明。

Seed 团队表示，Seed Prover 1.5采用了Agentic RL。其在构建的环境中让模型进行了海量的自我探索和训练。 Lean编译器提供了绝对客观的“对/错”反馈，为强化学习提供了最优质的奖励信号。随着 RL 训练步数的增加，模型在训练集上的证明通过率从初始的 50% 升至接近 90%。

另外，在对比测试中，Seed Prover 1.5 仅需少量的计算资源，就能在 Putnam 和 Fate 等高难度数据集上，击败消耗大量算力的上一代 Seed Prover 模型。这表明 Seed Prover 1.5 在推理能力与效率上迈上了新台阶，让形式化证明进一步走向实用化。

为打通自然语言与形式语言的界限，Seed 团队还训练了一个 Sketch Model，模拟人类数学家解决问题的方式：先构建高层的证明框架，再补充细节。

而基于 Sketch Model，Seed 团队还构建了一套高效的测试工作流，形成一个分层级的多智能体协作系统：由Natural Language Prover 负责提供高层的数学直觉和自然语言证明，Sketch Model再将自然语言转化为形式化的引理结构，Agentic Prover 并行地攻克每一个被拆解出的引理。

[人工智能] 字节推出形式化数学推理专用模型Seed Prover 1.5

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们