腾讯混元开源端到端模型HunyuanVideo-Foley

as22 · 发表于 2025-8-28 15:13:11

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-8-28 15:14 编辑

8月28日，腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley，只需输入视频和文字，就能为视频匹配电影级音效。

据介绍，HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限，让无声AI视频成为历史，更是真正做到了 “看懂画面、读懂文字、配准声音” ，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

即日起，用户可在Github,HuggingFace下载模型，也可以在混元官网直接体验。

该模型有三大亮点：

泛化能力好：HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频，生成与画面精准匹配的音频。

为实现可扩展的多模态数据集构建，混元团队开发了一个全面的数据处理管道，能够自动化标注和过滤收集的音视频数据，构建了约10万小时级的高质量TV2A数据集，为模型训练提供了强大支撑，使得模型拥有强大的泛化能力，能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频，包括音效与背景音乐。生成的音频能够与无声视频相结合，极大提升了视频的真实感和沉浸感。

多模态语义均衡响应：针对语义响应过度依赖文本模态，无法充分响应视觉语义的问题，HunyuanVideo-Foley采用了创新的双流多模态扩散变换器（MMDiT）架构，通过联合自注意力机制建模视频和音频之间的帧级别对齐关系，随后通过交叉注意力机制注入文本信息。

得益于创新的结构设计，HunyuanVideo-Foley既能理解视频画面，又能结合文字描述，自动平衡不同信息源，生成层次丰富的复合音效，不会因为过度依赖于文本语义而只生成部分音效。

专业级音频保真度：研究团队引入表征对齐（REPA）损失函数，利用预训练音频特征为建模过程提供语义与声学指导，显著提升了音频生成质量和稳定性。此外，得益于强大的音频VAE和高质量数据，HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现，保证了专业级的音频保真度。无论是汽车驶过湿滑路面的细节质感，还是环境音的空间层次，均达到专业制作水准。

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感，甚至通过声场变化体现车辆加速时的空间位移感。

此外，在多个权威评测基准上，HunyuanVideo-Foley的性能表现全面领先，在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平，超越了所有开源方案。

[人工智能] 腾讯混元开源端到端模型HunyuanVideo-Foley

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们