这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要 登录 才可以下载或查看,没有账号?立即注册
×
本帖最后由 as22 于 2025-9-30 16:54 编辑
9月30日消息,今日,据“火山引擎”微信公众号消息,今年6月,火山引擎推出豆包大模型1.6。凭借多模态思考能力,使模型能够更深入地理解和应对真实世界的复杂问题。时隔3个月,豆包大模型家族迎来新成员,正式发布豆包大模型1.6-vision,以自主调用工具完成视觉深度思考的差异化能力,更精准完成视觉理解任务,助力企业高效、低成本构建AI应用。
据介绍,豆包大模型1.6-vision是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强的通用多模态理解和推理能力,并支持ResponsesAPl,以更高性价比更好满足客户在视觉理解精准度上的高阶需求。
该模型以工具调用的差异化能力,将图像融入其思维链中,实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细处理。并通过模拟人类从“从全局扫描到局部聚焦”的视觉推理过程,在增强推理可解释性的同时,可高效精准地完成图像操作。
目前支持的工具包括:POINT (在图上绘制一系列点以及将点连成线)、GROUNDING(框选关键区域或裁剪关键区域)、ZOOM(缩放全图或缩放指定关键区域)、ROTATE(旋转图片)。
同时,豆包大模型1.6-vision支持Responses API,可自主选择调用工具,大幅度减少Agent开发过程中的代码量,提升开发效率,让开发者应用开发更加高效。
此外,对比上一版视觉理解模型Doubao-1.5-thinking-vision-pro,综合成本降低约50%,以更低成本解锁更强性能。
豆包大模型1.6-vision在专业视觉理解公开测评集中取得了较好成绩:
|