设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
腾讯混元开源端到端模型HunyuanVideo-Foley
返回列表
发布新帖
查看:
28
|
回复:
0
[人工智能]
腾讯混元开源端到端模型HunyuanVideo-Foley
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于
昨天 15:13
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 as22 于 2025-8-28 15:14 编辑
8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能为视频匹配电影级音效。
据介绍,HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。
即日起,用户可在Github,HuggingFace下载模型,也可以在混元官网直接体验。
该模型有三大亮点:
泛化能力好
:HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。
为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。
多模态语义均衡响应
:针对语义响应过度依赖文本模态,无法充分响应视觉语义的问题,HunyuanVideo-Foley采用了创新的双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,随后通过交叉注意力机制注入文本信息。
得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。
专业级音频保真度
:
研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频VAE和高质量数据,HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。
无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到专业制作水准。
HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。
此外,在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.119200 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表