这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要 登录 才可以下载或查看,没有账号?立即注册
×
本帖最后由 as22 于 2026-4-1 15:39 编辑
4月1日,据千问大模型官微消息,阿里发布图像生成与编辑统一模型Wan2.7-Image。
Wan2.7-Image帮助告别AI标准脸,实现“千人千面”,全新支持“调色盘”,精准控制色彩。3K token超长文本渲染,可写满一页A4纸;交互式编辑,哪里不爽点哪里。还具备文生图、图生组图、图像指令编辑,和交互式编辑等全链路能力。
千人千面:Wan2.7-Image强化了虚拟形象捏脸功能,支持从骨相、眼眸到五官细微处的全方位定制,比如更换提示词中的脸型(鹅蛋脸、圆脸、方脸、长方脸等)、眼部特征(杏仁眼、深邃眼窝、圆眼、丹凤眼等),实现“千人千面”。
调色盘:Wan2.7-Image全新支持“调色盘”功能,用户一键提取或输入参考图的各种颜色和占比,从马蒂斯浓郁的红色系、梵高明媚的黄色系,到毕加索清冷的蓝色系,都能参考生成同色系的图片,并可自由调控颜色的数量和占比,自定义配色方案。
超长文字渲染:模型对超长文字、表格和复杂公式的渲染可达印刷级,支持12种语言,最高3K token的超长文字输入,可输出一页A4纸的论文。
生成组图:Wan2.7-Image具备强大的组图生成能力,最多生成12张。
图片编辑升级亮点如下:
交互式编辑:哪里不爽点哪里
通过精准框,在指定区域元素添加、对齐、移动元素或logo,实现像素级意图对齐。
多主体一致性:最多支持9图
合影、电影海报及家具组合图,可保持风格与特征的统一。
技术亮点如下:
支持调用WanImage Skill,可让龙虾画画。人类偏好盲测评分,多项能力位列全国第一,接近Nano Banana Pro。
在训练数据上,超大规模的异构数据底座不仅涵盖全域品类的视觉素材,还整合了理解类数据;
在模型架构上,采用了领先的生成与理解统一模型架构,在共享隐空间(Latent Space)来实现语义映射,文字紧挨着画面,模型不需费力去猜文字对应的画面;
在训练流程中,引入多模态指令(比如文字+图片),使得模型实现了从单纯“像素拟合”到“底层语义认知”的飞跃。
基于更大规模数据及尺寸训练而成的Wan2.7-Image-pro同步上线,生成图像的构图更加稳定,语义理解更强更精准。 |