DreamOmni2的推出,致力于提升人工智能在图像处理中的指令遵循能力,实现了真正的多模态指令理解。这一系统能够同时理解文本指令与参考图像,显著改善了以往模型在处理抽象概念(如风格、材质、光照)时的局限性。用户与 AI 之间的交互更加自然,仿佛与一个了解自己意图的合作伙伴对话。
为了训练 AI 理解复杂的文本和图像指令,DreamOmni2的研发团队开发了一套创新的三阶段流程。首先,通过训练提取模型,AI 能够精准提取图像中的特定素或抽象属性。接着,利用提取模型生成多模态指令编辑数据,形成包含源图像、指令、参考图像和目标图像的训练样本。最后,通过进一步提取与组合生成更多参考图像,构建出丰富的多模态指令生成数据集。这一系列步骤为系统的高质量训练打下了坚实基础。