返回列表 发布新帖
查看: 9|回复: 0

[人工智能] 谷歌发布Gemini3.5Flash,原生集成计算机使用工具,替代2.5框架

发表于 4 小时前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2026-6-25 15:12 编辑

6月25日消息,今日,谷歌对其人工智能生态系统进行重大升级,正式将原生的“计算机使用”工具直接集成至 Gemini3.5Flash 模型中,全面取代先前的 Gemini2.5测试框架。此举标志着人工智能正从单纯的“对话者”加速演变为具备实际执行能力的“数字同事”,推动 AI 代理(Agent)从概念走向落地。

通过 Gemini API,开发者现可利用 Gemini3.5Flash 的原生能力构建智能代理。这些代理不再依赖复杂的底层代码编写,而是像人类用户一样,通过感知和理解屏幕截图等视觉信息,直观地导航应用程序,进而自动执行各种复杂的桌面任务。


这在办公自动化、软件测试及跨平台数据处理等场景中展现出巨大潜能,包括自动化浏览网站、填写长表单、点击界面按钮,以及高效处理桌面、移动和浏览器环境中的重复性数据收集工作。为加速这一生态构建,谷歌已在 Browserbase 上开设了实时演示空间,供开发者立即测试 Gemini 企业代理平台的相关功能。


6391799403136887822909325.jpg


面对赋予 AI 鼠标和键盘控制权带来的潜在安全挑战,如间接指令注入风险,谷歌强调已采取针对性的对抗训练来增强模型防御能力。同时,谷歌同步推出两款企业级安全系统:其一允许企业设置软件,要求 AI 在执行敏感或永久性更改操作前必须获得人工明确批准;其二则能在检测到潜在攻击时立即自动冻结正在运行的任务,多维度保障用户桌面安全。


配合此模型升级,谷歌同日发布 Chrome149稳定版。该版本引入名为“从屏幕中选择”的实用功能,用户可在浏览器的附件菜单中启用,通过拖拽框选当前标签页中的任何图像或文本,瞬间将其添加为 Gemini 的提示语,大幅提升了基于网页内容进行交互式提问的便捷性。


谷歌将原生计算机使用工具集成至 Gemini3.5Flash,不仅深化了其 AI 模型与操作系统的结合,也预示着 AI 行业正从追求大模型参数规模转向追求实际的工具使用和任务执行能力。这一趋势将加速 AI 代理在企业级自动化和消费者服务中的普及,重塑人机交互及软件应用形态,使更高级别的自主 AI 代理成为可能。


来源:AIbase基地

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.108905 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表