AI Agent 正在从“会聊天、会调用 API”,走向“会使用软件”。
Google 这次更新就很典型。
6 月 24 日,Google 发布 Gemini 3.5 Flash 的 computer use 能力。
根据 Google 官方博客,computer use 现在已经成为 Gemini 3.5 Flash 支持的内置工具。它此前是独立的 Gemini 2.5 computer use model,现在被原生集成进主 Gemini Flash 模型。
简单说:
Gemini 3.5 Flash 可以看屏幕截图,理解当前界面,并建议下一步 UI 操作。
比如点击按钮、输入文字、滚动页面、完成表单、检查网页流程。
这件事值得关注,因为很多真实任务没有干净的 API,只存在于网页后台、移动端界面、桌面软件和各种管理系统里。
computer use 的方向,就是让模型直接“看界面,然后决定下一步怎么操作”。

它能做什么?
Google AI for Developers 文档里写到,Computer Use 工具可以用来构建控制浏览器、移动端和桌面环境的 Agent。
核心能力可以这样看:
| 能力 | 说明 |
|---|---|
| 看屏幕 | 通过截图理解当前界面状态 |
| 做动作 | 返回点击、输入、滚动、键盘等 UI 操作 |
| 多环境 | 面向 browser、mobile、desktop 场景 |
| 动作解释 | 动作里可以带intent,说明为什么这么做 |
| 安全策略 | 可配置安全策略和 overrides |
| Prompt injection 检测 | 可选择扫描截图里的隐藏对抗指令 |
注意,它不是直接控制你的电脑。
更准确地说:
Gemini 负责看截图、理解目标、给出下一步动作;真正执行动作的是你的客户端环境。
比如浏览器场景里,可以用 Playwright 执行它返回的点击、输入和截图循环:
截图 -> Gemini 判断下一步 -> Playwright 执行 -> 再截图 -> 继续
所以它不是普通 function calling。
function calling 是调用你定义好的函数;computer use 面对的是变化中的界面,要判断按钮、输入框、当前步骤和下一步操作。
也就是说,它更接近“让 Agent 使用软件”。
适合先用在哪里?
我觉得第一批适合尝试的,不是生产系统,而是这些低风险任务:
| 场景 | 适合原因 |
|---|---|
| 页面巡检 | 检查页面流程、明显错误、可访问性问题 |
| 自动化测试 | 像用户一样走注册、登录、提交表单等流程 |
| 资料收集 | 跨网页收集公开信息 |
| 表单演练 | 在测试环境里填写重复表单 |
| 后台预检查 | 用沙箱账号检查流程是否能走通 |
Google 官方博客提到,这项能力可以用于企业自动化任务,例如持续软件测试和跨专业应用的知识工作。
Gemini API 文档也列了类似场景:网站重复数据录入、Web 应用和用户流程测试、跨多个网站做研究。
这里我最看好的是自动化测试。
传统 E2E 测试很稳定,但也很脆。DOM 结构变了、按钮文案变了、流程多一步,脚本就可能挂。
computer use 不会替代传统测试,但可以补一种新方式:
让 Agent 像真实用户一样看页面、理解目标、尝试走完整个流程。
比如注册流程是否顺、某个入口是否能找到、多语言页面是否有明显错位、文档页面是否有可访问性问题。

别急着放权
computer use 很酷,但风险也比普通聊天大。
普通问答错了,最多是输出错。computer use 操作错了,可能会点错按钮、提交错误表单、泄露页面里的敏感信息,甚至在登录态下执行不可逆操作。
Google 官方博客里也专门提到了安全问题。
为了缓解 prompt injection 风险,Google 对 Gemini 3.5 Flash 的 computer use 做了定向对抗训练,并发布了两个可选的企业防护系统:
- • 对敏感或不可逆操作要求明确用户确认;
- • 如果识别到 indirect prompt injection,自动停止任务。
Gemini API 文档也提醒:Computer Use 目前仍是 Preview 能力,可能包含错误和安全漏洞。官方建议重要任务要密切监督,并避免把它用于关键决策、敏感数据,或者严重错误无法纠正的动作。
我的建议是:
| 场景 | 建议 |
|---|---|
| 只读浏览、页面巡检、测试环境操作 | 可以较早尝试 |
| 表单填写、批量后台操作 | 需要日志、权限和可撤销机制 |
| 支付、删除、发布、发邮件等不可逆动作 | 必须人工确认 |
| 涉及敏感数据或生产系统 | 优先用沙箱、最小权限和隔离账号 |
一句话:
先在测试环境里跑,不要一上来就给真实账号和高权限。

适合谁关注?
这几类人可以重点看:
| 人群 | 为什么值得看 |
|---|---|
| 做 AI Agent 的开发者 | Agent 不再只调用 API,而是开始操作界面 |
| 做自动化测试的团队 | 可以尝试更接近真实用户行为的测试方式 |
| 做内部工具自动化的人 | 适合从低风险后台流程开始验证 |
| 做浏览器 Agent 的人 | computer use 会推动浏览器沙箱和执行器生态 |
| 关注 AI 工具的人 | 这是 Agent 从聊天框走向真实软件的一步 |
不太适合的情况:
- • 没有测试环境;
- • 没有权限隔离;
- • 没有日志回放;
- • 想直接让 Agent 操作生产系统;
- • 任务涉及敏感数据或不可逆动作。
最后说一句
Gemini 3.5 Flash 的 computer use 很有想象力。
它让 Agent 不只是“调用 API”,而是开始“使用软件”。
但越接近真实操作,越不能只看 Demo。
真正要关注的是:
- • 它在哪个环境里操作?
- • 它能看到什么数据?
- • 它有什么权限?
- • 它点错了能不能停?
- • 它每一步能不能回放?
- • 哪些动作必须经过人确认?
所以我会把它放进“值得尽快了解,但谨慎上生产”的工具能力清单里。
资料来源
- • Google 官方博客:Introducing computer use in Gemini 3.5 Flash
https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/ - • Gemini API 官方文档:Computer Use
https://ai.google.dev/gemini-api/docs/computer-use

TM1 个月前
发表在:CrossDesk | RustDesk、ToDesk平替Hey there! I c᧐uld h...
刀客6 个月前
发表在:近期发现的2个挂机应用 | 未测试 | 有兴趣的可以尝试一下@j:这就尴尬 这2个我暂时还没有去尝...
j6 个月前
发表在:近期发现的2个挂机应用 | 未测试 | 有兴趣的可以尝试一下vyx掛了16個IP快一個月了完全沒流量...
刀客7 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!@ysbg:官方是游戏规则定制者
ysbg7 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!为什么要检测多开?我觉得没有意义呀,因为...
刀客7 个月前
发表在:被Ban的Office-E5迎来救赎 | 新的希望 | 100GB-Outlook 和 5TB-OneDrive@pipi:哈哈
pipi7 个月前
发表在:被Ban的Office-E5迎来救赎 | 新的希望 | 100GB-Outlook 和 5TB-OneDrive不错不错,按照教程搞了个E3
刀客8 个月前
发表在:[装死,目测跑路]挂机网赚 - Earn.Cc@清风:近期会整理一期文章发布
清风8 个月前
发表在:[装死,目测跑路]挂机网赚 - Earn.Cc希望刀哥把利润高的标注一下谢谢
刀客8 个月前
发表在:[装死,目测跑路]挂机网赚 - Earn.Cc@清风:好的.感谢支持