腾讯混元开源定制化图像生成插件InstantCharacter

as22 发表于 2025-4-18 15:02:10

本帖最后由 as22 于 2025-4-18 15:31 编辑

4月18日消息，腾讯混元宣布开源定制化图像生成插件InstantCharacter，并实现了对开源文生图模型Flux的兼容。

通过这个插件，在大模型中，只需要一张图加一句话，你可以让任何角色以你想要的姿势出现在任何地方。

输入原始图片，如下：

+ prompt ：arabbit is in the kitchen holding a spoon and drinking soup，就能得到下面的图：

+prompt：a rabbit in the city,cyberpunk，就可以得到：

据介绍，通过这个插件，内容创作者可以让生成的角色保持高度一致，能够更高效地创作出符合其需求的视觉作品，可以用于连环画、影片创作等场景。
在实际的测评中，开源的InstantCharacter实现的效果媲美GPT 4o等业界领先模型。
腾讯混元表示，现有基于学习的方法主要依赖于U-Net架构，但在泛化能力和图像质量上存在局限性，而基于优化的方法则需要针对特定主体进行微调，这不可避免地降低了文本可控性。
为了解决这些挑战，InstantCharacter利用DiT模型构建了一个创新的框架。框架引入了一个可扩展的适配器（adapter），采用多个transformer encoder，能够有效处理开放域的角色特征，并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。
同时，为了有效训练框架，腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对（多视角角色）和非成对（文本-图像组合）子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

页: [1]

随客社区's Archiver

腾讯混元开源定制化图像生成插件InstantCharacter