腾讯混元生图模型升级2.1版本,支持2k生图
本帖最后由 as22 于 2025-9-10 15:40 编辑9月10日消息,今日,腾讯混元宣布带来了最新的生图模型“混元图像2.1(HunyuanImage 2.1)”。
据介绍,这是一个开源的文生图模型,支持原生2K生图,在多个方面达到业界领先水平:
在2.0架构的基础上全面升级,更加注重生成效果与性能之间的平衡,性能更强
不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成
生成图片的整体美学表现和适用场景的多样性方面都有了显著提升
这意味着,设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,亦或是复杂的四格漫画与连环画,混元图像2.1都能为创作者提供快速、高质量的支持。
据悉,新升级模型有以下几个亮点:
1、模型对复杂语义理解能力强,支持多主体分别描述与精确生成
2、模型对图像中的文字和场景细节的把控更为稳定
3、模型支持风格丰富,如真人、漫画与搪胶手办等,并具备较高美感
另外,混元图像2.1模型不仅采用了海量训练数据,还利用结构化、不同长度、内容多样的caption,极大提升了对文本描述的理解能力。在caption模型中,引入了OCR和IP RAG专家模型,有效增强了对复杂文字识别和世界知识的响应能力。
为大幅降低计算量、提升训练和推理效率,模型采用了32倍超高压缩倍率的VAE, 并使用dinov2对齐和repa loss来降低训练难度。因此,模型能高效原生生成2K图。
在文本编码方面,混元图像2.1配备了双文本编码器:一个MLLM模块用于进一步提升图文对齐能力,另一个ByT5模型则增强了文字生成表现力。整体架构为17B参数的单/双流DiT模型。
此外,混元图像2.1还在17B参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由100步蒸馏到8 步,显著提升推理速度的同时保证了模型原有的效果。
本次,混元还带来了一个开源的混元文本改写模型(PromptEnhancer)——这是业内首个系统化、工业级的中英文改写模型,能够对用户的文本指令进行结构化优化,丰富视觉表达,使改写后的文本生成图像的语义表现得到大幅提升。
作为一款开源模型, 混元图像2.1能够灵活适配社区多样化的衍生需求,模型权重和代码已在Hugging Face、GitHub等开源社区正式发布,个人和企业开发者均可基于这一基础模型开展研究,或开发各类衍生模型与插件。
页:
[1]