返回列表 发布新帖
查看: 3|回复: 0

[人工智能] 腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass

发表于 2 小时前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2026-3-10 16:11 编辑

3月10日,据腾讯混元消息,腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,这是此前发布的混元世界模型1.5 官方强化学习扩展模块。

EB9B5654-3327-4f8a-923B-BCE35142A02E.png

混元世界模型1.5于2025年12月首次发布,是业界首个可体验的实时世界模型。

腾讯混元表示,现有的生成式世界模型(如WorldPlay等)虽然展现了惊人的潜力,但主要依赖于预训练阶段的像素级监督。这种“依样画瓢”的学习方式,往往导致模型在面对复杂的组合动作指令时“听不懂”,或者在长距离漫游中出现画质崩坏和路径漂移。



为了解决这一难题,腾讯混元团队推出了WorldCompass。这是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。如果说世界模型是引擎,那么WorldCompass就是精准的“指南针”,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。

且实验表明,WorldCompass能显著提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近35%。

另外,团队在最新的开源SOTA模型 WorldPlay上进行了全面验证。结果显示,经过WorldCompass的后训练,模型能力实现了质的飞跃。

13AB0C8E-4EFB-4ff2-817A-E6AEE7BC58DD.png

在最为困难的复合动作(Combined Action)场景下(例如同时进行移动和旋转):基座模型对于复杂组合式动作序列执行的准确率仅为 20% 左右。使用 WorldCompass 训练后,准确率提升至 55% 左右,提升幅度超过 35%。对于基础动作,准确率也提升了约10%。

同时,在斯坦福大学世界模型Benchmark WorldScore上,WorldCompass取得了更好的评分:

24BDB52A-1383-4d10-9428-62B5EF9A58BD.png

WorldCompass已在混元WorldPlay模型上得到验证,相关代码和模型细节已开源。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.111877 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表