腾讯混元视频生成工具HunyuanCustom全新开源

as22 · 发表于 2025-5-9 13:52:37

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-5-9 15:21 编辑

5月9日消息，今日，腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。

据悉，该模型基于混元视频生成大模型（HunyuanVideo）打造，在主体一致性效果超过现有的开源方案。

据介绍，HunyuanCustom融合文本、图像、音频、视频等多模态输入生视频的能力，是一款具备高度控制力和生成质量的智能视频创作工具。

HunyuanCustom模型能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力，其生成的视频与用户输入的参考主体能保持高度一致。

其中，单主体生成能力已经开源并在混元官网上线，用户可以在“模型广场-图生视频-参考生视频”中体验，其他能力将于5月内陆续对外开源。

有了HunyuanCustom，用户只需上传一张包含目标人物或物体的图片，并提供一句文本描述（例如“他正在遛狗”），HunyuanCustom 就能识别出图片中的身份信息，并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

除了单主体以外，这个能力同样能实现多主体视频的生成，用户提供一张人物和一张物体的照片（比如一包薯片和一名男子的照片），并输入文字描述（比如“一名男子正在游泳池旁边，手里拿着薯片进行展示”），即可能让这两个主体按要求出现在视频里。

而Hunyuan Custom不止于图像和文本的配合，还具备强大的扩展能力。在音频驱动（单主体）模式下，用户可以上传人物图像并配上音频语音，模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果，广泛适用于数字人直播、虚拟客服、教育演示等场景。

在视频驱动模式下，Hunyuan Custom支持将图片中的人物或物体自然地替换或插入到任意视频片段中，进行创意植入或场景扩展，轻松实现视频重构与内容增强。

此前大部分的视频生成模型主要能实现文生视频和图生视频。文生视频每次均根据本文提示词重新生成，很难持续保持人物和场景的一致性。而图像生成视频模型主要实现的是“让图片动起来”。例如，上传一张人物照片，最终生成的视频通常只能在照片的原始服饰、姿态和场景下做出一些固定表情或动作，服装、背景和姿态几乎无法修改。

但在部分场景下，创作者希望保持人物一致的情况下，改变人物所在的环境和动作。此前的视频生成模型无法实现，多模态视频生成模型HunyuanCustom则可以很好地满足创作者的需求，通过引入身份增强机制和多模态融合模块，真正实现了“图像提供身份，文本定义一切”。

腾讯混元表示，HunyuanCustom可以满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户和场景的需求。

[人工智能] 腾讯混元视频生成工具HunyuanCustom全新开源

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们