美团发布虚拟人视频生成模型LongCat-Video-Avatar

as22 发表于 2025-12-19 13:43:58

12月19日消息，日前，据“龙猫 LongCat”公众号消息，美团LongCat 团队正式发布并开源SOTA级虚拟人视频生成模型 —— LongCat-Video-Avatar。

据悉，该模型基于LongCat-Video基座打造，延续 “一个模型支持多任务” 的核心设计，原生支持Audio-Text-to-Video（AT2V）、Audio-Text-Image-to-Video（ATI2V）及视频续写等核心功能，同时在底层架构上全面升级，实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破，为开发者提供更稳定、高效、实用的创作解决方案。

该模型具有以下技术亮点：

“告别僵硬，迎接鲜活”：全新的LongCat-Video-Avatar不仅能指挥嘴型，还能同步指挥眼神、表情和肢体动作，实现丰富饱满的情感表达。

连“不说话”的时候，都很像人：美团通过Disentangled Unconditional Guidance（解耦无条件引导）训练方法，让模型明白了“静音”不等于“死机”。在说话的间歇，虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。这种技术让LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的全能选手。

客观基准评测下，在HDTF、CelebV-HQ 、EMTD 和EvalTalker等权威公开数据集上的定量评测表明，LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。

在衡量唇音同步精度的Sync-c/Sync-D指标上，LongCat-Video-Avatar在各个数据集上均取得SOTA成绩；在一致性指标方面（FID、FVD、CSIM）也表现优异。

综合主观评测下，基于EvalTalker基准组织了大规模人工评测，从“自然度与真实感”维度对生成视频进行盲测打分（5分制）。

在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中，LongCat-Video-Avatar的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0在内的众多主流开源与商业模型。

页: [1]

随客社区's Archiver

美团发布虚拟人视频生成模型LongCat-Video-Avatar