返回列表 发布新帖
查看: 70|回复: 0

[人工智能] 通义千问推出系列中首个图像生成基础模型Qwen-Image

发表于 2025-8-5 14:10:30 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2025-8-5 14:18 编辑

8月5日消息,今日,通义千问宣布开源Qwen-Image,一个20B的MMDiT模型。

据介绍,这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

4906854F-EB37-4994-A079-30AE0BDAC82D.png

据悉,Qwen-Image的主要特性包括:

卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。

一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。

强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。

具体来看,在GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO等多个公开基准测试中,Qwen-Image取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。

此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。

40526041-8478-4916-86E5-666C6D01CF68.png


例如在宫崎骏的动漫风格中,不仅仅准确展示了宫崎骏的动漫风格,店铺的牌匾“云存储”,“云计算”,“云模型”,包括酒缸上的“千问”,都随着构图的景深,被真实准确的渲染。并且保留了人物姿势、神态刻画。Qwen-Image在英文文本渲染方面同样出色,无论是书店橱窗的展示信息,还是复杂的ppt图表,模型都能准确无误地生成文本内容,并自然的融入到整个图中。

DC27EFBD-D27F-4ded-AAD3-0147069DFE7B.png

E43E20C4-5EB3-4ce7-9AD0-EF599E342D63.png

除了文本处理,Qwen-Image 也会在通用图像生成方面也表现出色,支持多种艺术风格。在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.104177 second(s), 9 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表