通义千问推出系列中首个图像生成基础模型Qwen-Image
本帖最后由 as22 于 2025-8-5 14:18 编辑8月5日消息,今日,通义千问宣布开源Qwen-Image,一个20B的MMDiT模型。
据介绍,这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
据悉,Qwen-Image的主要特性包括:
卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
具体来看,在GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO等多个公开基准测试中,Qwen-Image取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。
此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。
例如在宫崎骏的动漫风格中,不仅仅准确展示了宫崎骏的动漫风格,店铺的牌匾“云存储”,“云计算”,“云模型”,包括酒缸上的“千问”,都随着构图的景深,被真实准确的渲染。并且保留了人物姿势、神态刻画。Qwen-Image在英文文本渲染方面同样出色,无论是书店橱窗的展示信息,还是复杂的ppt图表,模型都能准确无误地生成文本内容,并自然的融入到整个图中。
除了文本处理,Qwen-Image 也会在通用图像生成方面也表现出色,支持多种艺术风格。在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。
		页: 
[1]