AI Agent 正在从“会聊天、会调用 API”,走向“会使用软件”。

Google 这次更新就很典型。

6 月 24 日,Google 发布 Gemini 3.5 Flash 的 computer use 能力。

根据 Google 官方博客,computer use 现在已经成为 Gemini 3.5 Flash 支持的内置工具。它此前是独立的 Gemini 2.5 computer use model,现在被原生集成进主 Gemini Flash 模型。

简单说:

Gemini 3.5 Flash 可以看屏幕截图,理解当前界面,并建议下一步 UI 操作。

比如点击按钮、输入文字、滚动页面、完成表单、检查网页流程。

这件事值得关注,因为很多真实任务没有干净的 API,只存在于网页后台、移动端界面、桌面软件和各种管理系统里。

computer use 的方向,就是让模型直接“看界面,然后决定下一步怎么操作”。

它能做什么?

Google AI for Developers 文档里写到,Computer Use 工具可以用来构建控制浏览器、移动端和桌面环境的 Agent。

核心能力可以这样看:

能力 说明
看屏幕 通过截图理解当前界面状态
做动作 返回点击、输入、滚动、键盘等 UI 操作
多环境 面向 browser、mobile、desktop 场景
动作解释 动作里可以带intent,说明为什么这么做
安全策略 可配置安全策略和 overrides
Prompt injection 检测 可选择扫描截图里的隐藏对抗指令

注意,它不是直接控制你的电脑。

更准确地说:

Gemini 负责看截图、理解目标、给出下一步动作;真正执行动作的是你的客户端环境。

比如浏览器场景里,可以用 Playwright 执行它返回的点击、输入和截图循环:

截图 -> Gemini 判断下一步 -> Playwright 执行 -> 再截图 -> 继续

所以它不是普通 function calling。

function calling 是调用你定义好的函数;computer use 面对的是变化中的界面,要判断按钮、输入框、当前步骤和下一步操作。

也就是说,它更接近“让 Agent 使用软件”。

适合先用在哪里?

我觉得第一批适合尝试的,不是生产系统,而是这些低风险任务:

场景 适合原因
页面巡检 检查页面流程、明显错误、可访问性问题
自动化测试 像用户一样走注册、登录、提交表单等流程
资料收集 跨网页收集公开信息
表单演练 在测试环境里填写重复表单
后台预检查 用沙箱账号检查流程是否能走通

Google 官方博客提到,这项能力可以用于企业自动化任务,例如持续软件测试和跨专业应用的知识工作。

Gemini API 文档也列了类似场景:网站重复数据录入、Web 应用和用户流程测试、跨多个网站做研究。

这里我最看好的是自动化测试。

传统 E2E 测试很稳定,但也很脆。DOM 结构变了、按钮文案变了、流程多一步,脚本就可能挂。

computer use 不会替代传统测试,但可以补一种新方式:

让 Agent 像真实用户一样看页面、理解目标、尝试走完整个流程。

比如注册流程是否顺、某个入口是否能找到、多语言页面是否有明显错位、文档页面是否有可访问性问题。

别急着放权

computer use 很酷,但风险也比普通聊天大。

普通问答错了,最多是输出错。computer use 操作错了,可能会点错按钮、提交错误表单、泄露页面里的敏感信息,甚至在登录态下执行不可逆操作。

Google 官方博客里也专门提到了安全问题。

为了缓解 prompt injection 风险,Google 对 Gemini 3.5 Flash 的 computer use 做了定向对抗训练,并发布了两个可选的企业防护系统:

  • • 对敏感或不可逆操作要求明确用户确认;
  • • 如果识别到 indirect prompt injection,自动停止任务。

Gemini API 文档也提醒:Computer Use 目前仍是 Preview 能力,可能包含错误和安全漏洞。官方建议重要任务要密切监督,并避免把它用于关键决策、敏感数据,或者严重错误无法纠正的动作。

我的建议是:

场景 建议
只读浏览、页面巡检、测试环境操作 可以较早尝试
表单填写、批量后台操作 需要日志、权限和可撤销机制
支付、删除、发布、发邮件等不可逆动作 必须人工确认
涉及敏感数据或生产系统 优先用沙箱、最小权限和隔离账号

一句话:

先在测试环境里跑,不要一上来就给真实账号和高权限。

适合谁关注?

这几类人可以重点看:

人群 为什么值得看
做 AI Agent 的开发者 Agent 不再只调用 API,而是开始操作界面
做自动化测试的团队 可以尝试更接近真实用户行为的测试方式
做内部工具自动化的人 适合从低风险后台流程开始验证
做浏览器 Agent 的人 computer use 会推动浏览器沙箱和执行器生态
关注 AI 工具的人 这是 Agent 从聊天框走向真实软件的一步

不太适合的情况:

  • • 没有测试环境;
  • • 没有权限隔离;
  • • 没有日志回放;
  • • 想直接让 Agent 操作生产系统;
  • • 任务涉及敏感数据或不可逆动作。

最后说一句

Gemini 3.5 Flash 的 computer use 很有想象力。

它让 Agent 不只是“调用 API”,而是开始“使用软件”。

但越接近真实操作,越不能只看 Demo。

真正要关注的是:

  • • 它在哪个环境里操作?
  • • 它能看到什么数据?
  • • 它有什么权限?
  • • 它点错了能不能停?
  • • 它每一步能不能回放?
  • • 哪些动作必须经过人确认?

所以我会把它放进“值得尽快了解,但谨慎上生产”的工具能力清单里。

资料来源