通义万相“首尾帧生视频模型”开源

as22 · 发表于 2025-4-18 10:34:24

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-4-18 10:39 编辑

4月18日消息，日前，阿里通义万相宣布“首尾帧生视频模型”开源。

据介绍，该模型参数量为14B，号称是业界首个百亿参数规模的开源首尾帧视频模型。其可根据用户指定的开始和结束图片，生成一段能衔接首尾画面的720p高清视频。用户可在通义万相官网直接免费体验该模型。

据悉，阿里通义发布的Wan2.1系列模型采用了先进的DiT架构，在技术上实现了多项突破。其中，高效的视频压缩VA模型显著降低了运算成本，让高清视频生成更加高效且经济。同时，模型的Transformer部分基于主流的视频DiT结构，通过Full Attention机制精准捕捉长时程的时空依赖关系，确保了生成视频在时间与空间上的高度一致性。

而基于基础模型架构，首尾帧生视频模型引入了额外的条件控制机制，用户输入的首帧和尾帧作为控制条件，通过该机制可实现流畅且精准的首尾帧变换。

在训练阶段，对于文本与视频编码模块，首尾帧生视频模型采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略；对于扩散变换模型（DiT）模块，运用了数据并行（DP）、完全分片数据并行（FSDP）、环形注意力机制（RingAttention）以及Ulysses混合的并行策略。支持分辨率为720p、时长为5秒的视频切片训练。

在推理阶段，为了在有限内存资源的条件下支持高清视频推理，通义万相首尾帧生视频模型分别采用了模型切分策略以及序列并行策略。

基于通义万相首尾帧生视频模型的强大能力，它不仅能完美复刻输入图像的细节，还能生成具有生动真实动作的视频。目前，通义万相首尾帧生视频模型已同步在GitHub开源。

[人工智能] 通义万相“首尾帧生视频模型”开源

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们