返回列表 发布新帖
查看: 8|回复: 0

[人工智能] 美团发布虚拟人视频生成模型LongCat-Video-Avatar

发表于 3 小时前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
12月19日消息,日前,据“龙猫 LongCat”公众号消息,美团LongCat 团队正式发布并开源SOTA级虚拟人视频生成模型 —— LongCat-Video-Avatar。

E824238E-BCBE-468f-AA8A-15211E6BD752.png

据悉,该模型基于LongCat-Video基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。

该模型具有以下技术亮点:

“告别僵硬,迎接鲜活”:全新的LongCat-Video-Avatar不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。

连“不说话”的时候,都很像人:美团通过Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”。在说话的间歇,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。这种技术让LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的全能选手。

客观基准评测下,在HDTF、CelebV-HQ 、EMTD 和EvalTalker等权威公开数据集上的定量评测表明,LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。

931337F3-9D66-4769-B0C0-12A6900CF57C.png

在衡量唇音同步精度的Sync-c/Sync-D指标上,LongCat-Video-Avatar在各个数据集上均取得SOTA成绩;在一致性指标方面(FID、FVD、CSIM)也表现优异。

综合主观评测下,基于EvalTalker基准组织了大规模人工评测,从“自然度与真实感”维度对生成视频进行盲测打分(5分制)。

在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中,LongCat-Video-Avatar的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0在内的众多主流开源与商业模型。

B36B1596-4BEF-493f-9E78-9763C754CDCC.png
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.111071 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表