as22 发表于 7 天前

混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成

10月23日消息,据腾讯混元官方消息,近日,混元世界模型1.1版本(WorldMirror)正式发布并开源,新增支持多视图及视频输入,单卡即可部署,秒级创造3D世界。

据悉,今年 7 月,腾讯混元推出了混元世界模型1.0,这是业界首个开源并兼容传统CG管线的可漫游世界生成模型,其 lite 版本在消费级显卡就可以部署。

作为一个统一(any-to-any)的前馈式(feedforward)3D重建大模型,混元世界模型1.1解决了1.0版本仅支持文本或单图输入的局限,首次同时支持多模态先验注入和多任务统一输出的端到端3D重建。

此外,混元世界模型1.1还支持额外的相机、深度等多模态先验输入,并基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种3D几何预测,性能大幅超过现有方法。



目前,混元世界模型1.1(WorldMirror)已完全开源,开发者可克隆GitHub仓库,按照文档一键部署到本地使用。普通用户也可以直接进入HuggingFace Space在线体验,支持上传多视图图像或视频,实时预览3DGS渲染结果。
页: [1]
查看完整版本: 混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成