设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
字节推出形式化数学推理专用模型Seed Prover 1.5 ...
返回列表
发布新帖
查看:
7
|
回复:
0
[人工智能]
字节推出形式化数学推理专用模型Seed Prover 1.5
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于
前天 14:17
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 as22 于 2025-12-24 14:26 编辑
12月24日,据字节跳动Seed团队消息,近日,其推出新一代形式化数学推理专用模型 Seed Prover 1.5 ,通过大规模的 Agentic RL 训练,其推理能力和推理效率取得显著进步。
相比上一代模型,Seed Prover 1.5 在16.5小时内,针对 IMO 2025 的前 5 道题目生成了完整可编译验证的 Lean 证明代码,换算成绩为 35/42,达到此前 IMO 评分标准的金牌分数线。
针对北美本科级别数学竞赛 Putnam,Seed Prover 1.5 用时 9 小时,对 12 道 Putnam 2025 赛题中的 11 道生成了可编译验证的 Lean 代码。更系统的评估中,Seed Prover 1.5 表现出色:它在完整的 Putnam 历史评估集上解决了 88% 的问题,在代表硕士数学难度的 Fate-H 和代表博士生数学难度的 Fate-X 评估集上,分别解决了 80% 和 33% 的问题,刷新了形式化数学推理模型在这几个评测集上的 SOTA 表现。
据悉,Seed Prover 1.5提出了一种全新的 Agentic Prover 架构来弥合与自然语言推理的差距,其平衡了两种形式化证明方式的优缺点:模型将 Lean 语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。
Mathlib 搜索工具:类似于程序员查阅技术文档,模型可以主动检索 Lean 庞大的数学库 Mathlib,寻找可用的定理和定义,而非依赖不可靠的隐式记忆。
Python 代码执行:遇到需要计算的部分,模型可以编写并运行 Python 脚本来辅助验证直觉。
增量式引理验证:模型不再被迫一次性生成整个证明,而是将复杂问题拆解为若干引理。每证明出一个引理,系统就会将其保留并复用,作为后续推理的基石。
这种设计让模型能够灵活调整策略:既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又可以随时调用工具验证猜想,最后将经过验证的模块拼装成完整的形式化证明。
Seed 团队
表示,Seed Prover 1.5采用了Agentic RL。其在构建的环境中让模型进行了海量的自我探索和训练。 Lean编译器提供了绝对客观的“对/错”反馈,为强化学习提供了最优质的奖励信号。随着 RL 训练步数的增加,模型在训练集上的证明通过率从初始的 50% 升至接近 90%。
另外,在对比测试中,Seed Prover 1.5 仅需少量的计算资源,就能在 Putnam 和 Fate 等高难度数据集上,击败消耗大量算力的上一代 Seed Prover 模型。这表明 Seed Prover 1.5 在推理能力与效率上迈上了新台阶,让形式化证明进一步走向实用化。
为打通自然语言与形式语言的界限,Seed 团队还训练了一个 Sketch Model,模拟人类数学家解决问题的方式:先构建高层的证明框架,再补充细节。
而基于 Sketch Model,Seed 团队还构建了一套高效的测试工作流,形成一个分层级的多智能体协作系统:由Natural Language Prover 负责提供高层的数学直觉和自然语言证明,Sketch Model再将自然语言转化为形式化的引理结构,Agentic Prover 并行地攻克每一个被拆解出的引理。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.127037 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表