腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass

as22 · 发表于 2026-3-10 15:55:23

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2026-3-10 16:11 编辑

3月10日，据腾讯混元消息，腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass，这是此前发布的混元世界模型1.5 官方强化学习扩展模块。

混元世界模型1.5于2025年12月首次发布，是业界首个可体验的实时世界模型。

腾讯混元表示，现有的生成式世界模型（如WorldPlay等）虽然展现了惊人的潜力，但主要依赖于预训练阶段的像素级监督。这种“依样画瓢”的学习方式，往往导致模型在面对复杂的组合动作指令时“听不懂”，或者在长距离漫游中出现画质崩坏和路径漂移。

为了解决这一难题，腾讯混元团队推出了WorldCompass。这是一个专为长时序、交互式世界模型设计的强化学习（RL）后训练框架。如果说世界模型是引擎，那么WorldCompass就是精准的“指南针”，通过引入强化学习机制，直接“引导”模型如何更准确地遵循用户指令探索世界，并保持长时序的视觉一致性。

且实验表明，WorldCompass能显著提升 SOTA 开源世界模型（WorldPlay）的交互准确率和视觉保真度，特别是在复杂的组合动作场景下，交互准确率提升了近35%。

另外，团队在最新的开源SOTA模型 WorldPlay上进行了全面验证。结果显示，经过WorldCompass的后训练，模型能力实现了质的飞跃。

在最为困难的复合动作（Combined Action）场景下（例如同时进行移动和旋转）：基座模型对于复杂组合式动作序列执行的准确率仅为 20% 左右。使用 WorldCompass 训练后，准确率提升至 55% 左右，提升幅度超过 35%。对于基础动作，准确率也提升了约10%。

同时，在斯坦福大学世界模型Benchmark WorldScore上，WorldCompass取得了更好的评分：

WorldCompass已在混元WorldPlay模型上得到验证，相关代码和模型细节已开源。

[人工智能] 腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们