美团发布虚拟人视频生成模型LongCat-Video-Avatar
12月19日消息,日前,据“龙猫 LongCat”公众号消息,美团LongCat 团队正式发布并开源SOTA级虚拟人视频生成模型 —— LongCat-Video-Avatar。据悉,该模型基于LongCat-Video基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。
该模型具有以下技术亮点:
“告别僵硬,迎接鲜活”:全新的LongCat-Video-Avatar不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。
连“不说话”的时候,都很像人:美团通过Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”。在说话的间歇,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。这种技术让LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的全能选手。
客观基准评测下,在HDTF、CelebV-HQ 、EMTD 和EvalTalker等权威公开数据集上的定量评测表明,LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。
在衡量唇音同步精度的Sync-c/Sync-D指标上,LongCat-Video-Avatar在各个数据集上均取得SOTA成绩;在一致性指标方面(FID、FVD、CSIM)也表现优异。
综合主观评测下,基于EvalTalker基准组织了大规模人工评测,从“自然度与真实感”维度对生成视频进行盲测打分(5分制)。
在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中,LongCat-Video-Avatar的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0在内的众多主流开源与商业模型。
页:
[1]