设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
通义千问推出系列中首个图像生成基础模型Qwen-Image ...
返回列表
发布新帖
查看:
70
|
回复:
0
[人工智能]
通义千问推出系列中首个图像生成基础模型Qwen-Image
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于 2025-8-5 14:10:30
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 as22 于 2025-8-5 14:18 编辑
8月5日消息,今日,通义千问宣布开源Qwen-Image,一个20B的MMDiT模型。
据介绍,这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
据悉,Qwen-Image的主要特性包括:
卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
具体来看,在GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO等多个公开基准测试中,Qwen-Image取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。
此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。
例如在宫崎骏的动漫风格中,不仅仅准确展示了宫崎骏的动漫风格,店铺的牌匾“云存储”,“云计算”,“云模型”,包括酒缸上的“千问”,都随着构图的景深,被真实准确的渲染。并且保留了人物姿势、神态刻画。Qwen-Image在英文文本渲染方面同样出色,无论是书店橱窗的展示信息,还是复杂的ppt图表,模型都能准确无误地生成文本内容,并自然的融入到整个图中。
除了文本处理,Qwen-Image 也会在通用图像生成方面也表现出色,支持多种艺术风格。在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
闪电资讯
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.104177 second(s), 9 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表