返回列表 发布新帖
查看: 31|回复: 0

[人工智能] 豆包大模型1.6-vision正式发布

发表于 3 天前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2025-9-30 16:54 编辑

9月30日消息,今日,据“火山引擎”微信公众号消息,今年6月,火山引擎推出豆包大模型1.6。凭借多模态思考能力,使模型能够更深入地理解和应对真实世界的复杂问题。时隔3个月,豆包大模型家族迎来新成员,正式发布豆包大模型1.6-vision,以自主调用工具完成视觉深度思考的差异化能力,更精准完成视觉理解任务,助力企业高效、低成本构建AI应用。

据介绍,豆包大模型1.6-vision是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强的通用多模态理解和推理能力,并支持ResponsesAPl,以更高性价比更好满足客户在视觉理解精准度上的高阶需求。

该模型以工具调用的差异化能力,将图像融入其思维链中,实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细处理。并通过模拟人类从“从全局扫描到局部聚焦”的视觉推理过程,在增强推理可解释性的同时,可高效精准地完成图像操作。

目前支持的工具包括:POINT (在图上绘制一系列点以及将点连成线)、GROUNDING(框选关键区域或裁剪关键区域)、ZOOM(缩放全图或缩放指定关键区域)、ROTATE(旋转图片)。

同时,豆包大模型1.6-vision支持Responses API,可自主选择调用工具,大幅度减少Agent开发过程中的代码量,提升开发效率,让开发者应用开发更加高效。

此外,对比上一版视觉理解模型Doubao-1.5-thinking-vision-pro,综合成本降低约50%,以更低成本解锁更强性能。

豆包大模型1.6-vision在专业视觉理解公开测评集中取得了较好成绩:

99C86D3F-839F-483e-A6B7-DEC0FEEE546E.png
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.094095 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表