豆包大模型1.6-vision正式发布

as22 · 发表于 2025-9-30 16:41:39

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-9-30 16:54 编辑

9月30日消息，今日，据“火山引擎”微信公众号消息，今年6月，火山引擎推出豆包大模型1.6。凭借多模态思考能力，使模型能够更深入地理解和应对真实世界的复杂问题。时隔3个月，豆包大模型家族迎来新成员，正式发布豆包大模型1.6-vision，以自主调用工具完成视觉深度思考的差异化能力，更精准完成视觉理解任务，助力企业高效、低成本构建AI应用。

据介绍，豆包大模型1.6-vision是豆包大模型家族首个具备工具调用能力的视觉深度思考模型，拥有更强的通用多模态理解和推理能力，并支持ResponsesAPl，以更高性价比更好满足客户在视觉理解精准度上的高阶需求。

该模型以工具调用的差异化能力，将图像融入其思维链中，实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细处理。并通过模拟人类从“从全局扫描到局部聚焦”的视觉推理过程，在增强推理可解释性的同时，可高效精准地完成图像操作。

目前支持的工具包括：POINT （在图上绘制一系列点以及将点连成线）、GROUNDING（框选关键区域或裁剪关键区域）、ZOOM(缩放全图或缩放指定关键区域)、ROTATE（旋转图片）。

同时，豆包大模型1.6-vision支持Responses API，可自主选择调用工具，大幅度减少Agent开发过程中的代码量，提升开发效率，让开发者应用开发更加高效。

此外，对比上一版视觉理解模型Doubao-1.5-thinking-vision-pro，综合成本降低约50%，以更低成本解锁更强性能。

豆包大模型1.6-vision在专业视觉理解公开测评集中取得了较好成绩:

[人工智能] 豆包大模型1.6-vision正式发布

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们