豆包文生图技术报告发布：数据处理、预训练、RLHF全流程公开

as22 发表于 2025-3-12 14:25:11

3月12日消息，今天，豆包大模型团队正式发布文生图技术报告，首次公开Seedream 2.0图像生成模型技术细节，覆盖数据构建、预训练框架、后训练 RLHF 全流程，针对Seedream 2.0原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现，进行了具体介绍。

据悉，豆包大模型团队文生图模型Seedream 2.0于2024年12月初在豆包APP和即梦上线，已服务上亿C端用户，并成为国内许多专业设计师辅助创作的首选模型。

相比Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro等主流模型，该模型更好解决了文本渲染能力欠佳、对中国文化理解不足等诸多实际问题，支持原生中英双语，美感、指令遵循等能力有整体提升。

团队为了较全面客观地评估模型，围绕图文匹配度、结构准确率、美感等基础维度，严格构建了Bench-240评测基准。

通过测试，团队发现Seedream 2.0面向英文提示词，其生成内容的结构合理性、文本理解准确性高于主流模型。

中文综合能力同样突出，其生成与渲染文字可用率达78%，完美响应率为63%，高于业界目前其他模型。

此外，团队还从数据预处理、预训练、后训练维度介绍了模型技术细节。

最后，豆包大模型团队表示，此次技术报告的发布，旨在推动图像生成技术进一步发展，加强业内交流。展望未来，团队将持续探索更高效地Scaling模型参数及数据的创新技术，进一步提升模型的性能边界。

页: [1]

随客社区's Archiver

豆包文生图技术报告发布：数据处理、预训练、RLHF全流程公开