中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

JQR1 · 发表于 2025-8-19 17:14:36

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布，这款多模态大模型在图像分割领域实现了重要突破，将传统的"分割万物"能力升级为"任意分割"，显著提升了模型的适应性和应用范围。

传统的Segment Anything Model（SAM）虽然在生成密集分割掩码方面表现出色，但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈，研究团队创新性地提出了视觉定位分割(Visual Grounded Segmentation， VGS)任务框架，通过交互式视觉提示实现对所有实例对象的精确分割，为多模态大语言模型提供了像素级的理解能力。

X-SAM的技术架构采用了多项创新设计。模型支持统一的输入格式和输出表示，能够处理多种类型的视觉和文本查询输入。其核心的双编码器架构确保了对图像内容和分割特征的深度理解，而分割连接器则提供多尺度信息融合，大幅提升分割精度。

最值得关注的是，X-SAM集成了最新的Mask2Former架构作为分割解码器，这使得模型能够在单次操作中同时分割多个目标对象，彻底突破了传统SAM只能处理单一对象的技术限制。这一改进不仅提高了处理效率，也为复杂场景下的批量分割任务提供了可能。

在模型训练方面，研究团队采用了三阶段渐进式训练策略，通过逐步增强的学习过程确保模型性能的稳定提升。经过在20多个主流分割数据集上的全面测试，X-SAM在对话生成分割任务和图文理解任务中均取得了领先的性能表现，验证了其技术方案的有效性。

X-SAM的发布为图像分割技术发展指明了新方向，也为构建更加智能的通用视觉理解系统提供了重要的技术基础。研究团队表示，下一步将重点探索该技术在视频领域的应用拓展，推动图像与视频分割技术的统一化发展，进一步提升机器视觉理解能力的边界。

这项研究成果不仅在学术层面具有重要意义，其在自动驾驶、医疗影像、工业检测等实际应用场景中的潜力也值得期待。随着模型开源和技术推广，预计将推动整个计算机视觉领域的快速发展。

论文地址:https://arxiv.org/pdf/2508.04655

代码地址:https://github.com/wanghao9610/X-SAM

Demo地址: https://47.115.200.157:7861

来源：AIbase基地

[人工智能] 中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们