美团LongCat团队发布视频生成模型LongCat-Video

as22 · 发表于 2025-10-27 14:48:42

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

10月27日，美团LongCat团队正式发布LongCat-Video视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平，更依托原生视频续写任务预训练，实现分钟级长视频连贯生成，从根源上保障跨帧时序一致性与物理运动合理性，尤其在长视频生成领域具备显著优势。

据介绍，作为一款视频生成模型，LongCat-Video 凭借其精准重构真实世界运行状态的能力，正在成为美团探索世界模型的第一步，也是关键的一步。同时，这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景，夯实了技术基础。

LongCat-Video基于Diffusion Transformer（DiT）架构的多功能统一视频生成基座，通过 “条件帧数量” 实现任务区分 —— 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容，原生支持三大核心任务且无需额外模型适配，形成 “文生 / 图生 / 视频续写” 完整任务闭环。

其中，文生视频：可生成 720p、30fps 高清视频，能精准解析文本中物体、人物、场景、风格等细节指令，语义理解与视觉呈现能力达开源 SOTA 级别。

图生视频：严格保留参考图像的主体属性、背景关系与整体风格，动态过程符合物理规律，支持详细指令、简洁描述、空指令等多类型输入，内容一致性与动态自然度表现优异。

视频续写：视频续写是LongCat Video的核心差异化能力，可基于多帧条件帧续接视频内容，为长视频生成提供原生技术支撑。

另外，依托视频续写任务预训练、Block-Causual Attention 机制和 GRPO 后训练，LongCat-Video 可稳定输出5分钟级别的长视频，且无质量损失，达到行业顶尖水平。同时，从根源规避色彩漂移、画质降解、动作断裂等行业痛点，保障跨帧时序一致性与物理运动合理性，完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。

同时，模型结合块稀疏注意力（BSA）与条件 token 缓存机制，大幅降低长视频推理冗余 —— 即便处理 93 帧及以上长序列，仍能兼顾效率与生成质量稳定，打破长视频生成 “时长与质量不可兼得” 的瓶颈。

针对高分辨率、高帧率视频生成的计算瓶颈，LongCat-Video 通过 “二阶段粗到精生成（C2F）+ 块稀疏注意力（BSA）+ 模型蒸馏” 三重优化，视频推理速度提升至10.1倍，实现效率与质量的最优平衡。

通过全面的评估显示，LongCat-Video 通用性能优秀，综合能力跻身开源 SOTA：

136 亿参数的视频生成基座模型，在文生视频、图生视频两大核心任务中，综合性能均达到当前开源领域 SOTA 级别；

通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估，其性能在文本对齐度、运动连贯性等关键指标上展现显著优势；

在 VBench 等公开基准测试中，LongCat-Video 在参评模型中整体表现优异。

[人工智能] 美团LongCat团队发布视频生成模型LongCat-Video

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们