设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
美团发布虚拟人视频生成模型LongCat-Video-Avatar ...
返回列表
发布新帖
查看:
8
|
回复:
0
[人工智能]
美团发布虚拟人视频生成模型LongCat-Video-Avatar
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于
3 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
12月19日消息,日前,据“龙猫 LongCat”公众号消息,美团LongCat 团队正式发布并开源SOTA级虚拟人视频生成模型 —— LongCat-Video-Avatar。
据悉,该模型基于LongCat-Video基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。
该模型具有以下技术亮点:
“告别僵硬,迎接鲜活”:全新的LongCat-Video-Avatar不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。
连“不说话”的时候,都很像人:美团通过Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”。在说话的间歇,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。这种技术让LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的全能选手。
客观基准评测下,在HDTF、CelebV-HQ 、EMTD 和EvalTalker等权威公开数据集上的定量评测表明,LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。
在衡量唇音同步精度的Sync-c/Sync-D指标上,LongCat-Video-Avatar在各个数据集上均取得SOTA成绩;在一致性指标方面(FID、FVD、CSIM)也表现优异。
综合主观评测下,基于EvalTalker基准组织了大规模人工评测,从“自然度与真实感”维度对生成视频进行盲测打分(5分制)。
在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中,LongCat-Video-Avatar的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0在内的众多主流开源与商业模型。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.111071 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表