腾讯混元宣布推出并开源“混元图像 3.0”

as22 · 发表于 2025-9-28 14:19:34

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

9月28日消息，今日，腾讯混元宣布混元图像3.0开源，免费开放使用。

据介绍，混元图像3.0（HunyuanImage 3.0），是首个工业级原生多模态生图模型，参数规模80B，也是目前测评效果最好、参数量最大的开源生图模型，效果可对标业界头部闭源模型。

腾讯混元表示，推荐使用混元图像3.0的几个理由如下：

拥有“常识”，并能够利用知识进行推理

语义理解准确度高，并具备极致美学质感，能生成真实的高质感图片

可以解析千字级别的复杂语义，生成长文本文字和小文字

整体图像生成效果业界领先

据悉，混元图像3.0不仅能生成复杂文本、复杂漫画、表情包，还能生成生动有趣的科普插画。这些能力能够大幅提升插画师、设计师等视觉创作者的效率，原来可能需要画几个小时的漫画，现在可能只需要几分钟就能实现；同时，没有美术功底和设计经验的内容创作者，也能创作出更丰富、生动的视觉内容。

行业与学界研究者、企业与个人开发者，均可基于混元图像3.0进行应用研发或二次开发，制作相关衍生模型。

在文生图领域，当前学术界和业界正在从传统DiT转向原生多模态模型架构。当前业界已经有一些开源的模型，但都是小模型，偏向于学术研究和实验阶段，生图效果也离工业界最优效果有较大差距。作为原生多模态开源模型，混元图像3.0需要对模型整体架构进行重构，以支持多任务的训练，并实现多任务效果之间的相互促进。

混元图像3.0以Hunyuan-A13B为基础，基于50亿量级的图文对，视频帧，图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练，使得模型能够充分融合多任务效果，实现超强的语义理解能力，能够响应复杂的长文本，生成长文本文字，同时具有LLM的世界知识，能够利用世界知识进行推理。

腾讯混元团队透露，混元图像3.0目前的版本仅开放了文生图能力，图生图、图像编辑、多轮交互等版本将于后续发布。

[人工智能] 腾讯混元宣布推出并开源“混元图像 3.0”

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们