通义千问推出系列中首个图像生成基础模型Qwen-Image

as22 · 发表于 2025-8-5 14:10:30

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-8-5 14:18 编辑

8月5日消息，今日，通义千问宣布开源Qwen-Image，一个20B的MMDiT模型。

据介绍，这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

据悉，Qwen-Image的主要特性包括：

卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。

一致性的图像编辑能力: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。

强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

具体来看，在GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO等多个公开基准测试中，Qwen-Image取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。

此外，在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明，Qwen-Image在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。

例如在宫崎骏的动漫风格中，不仅仅准确展示了宫崎骏的动漫风格，店铺的牌匾“云存储”，“云计算”，“云模型”，包括酒缸上的“千问”，都随着构图的景深，被真实准确的渲染。并且保留了人物姿势、神态刻画。Qwen-Image在英文文本渲染方面同样出色，无论是书店橱窗的展示信息，还是复杂的ppt图表，模型都能准确无误地生成文本内容，并自然的融入到整个图中。

除了文本处理，Qwen-Image 也会在通用图像生成方面也表现出色，支持多种艺术风格。在图像编辑方面，Qwen-Image支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作。

[人工智能] 通义千问推出系列中首个图像生成基础模型Qwen-Image

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们