Google 把“操作电脑”塞进 Gemini 3.5 Flash 了

AI Agent 正在从“会聊天、会调用 API”，走向“会使用软件”。

Google 这次更新就很典型。

6 月 24 日，Google 发布 Gemini 3.5 Flash 的 computer use 能力。

根据 Google 官方博客，computer use 现在已经成为 Gemini 3.5 Flash 支持的内置工具。它此前是独立的 Gemini 2.5 computer use model，现在被原生集成进主 Gemini Flash 模型。

简单说：

Gemini 3.5 Flash 可以看屏幕截图，理解当前界面，并建议下一步 UI 操作。

比如点击按钮、输入文字、滚动页面、完成表单、检查网页流程。

这件事值得关注，因为很多真实任务没有干净的 API，只存在于网页后台、移动端界面、桌面软件和各种管理系统里。

computer use 的方向，就是让模型直接“看界面，然后决定下一步怎么操作”。

它能做什么？

Google AI for Developers 文档里写到，Computer Use 工具可以用来构建控制浏览器、移动端和桌面环境的 Agent。

核心能力可以这样看：

能力	说明
看屏幕	通过截图理解当前界面状态
做动作	返回点击、输入、滚动、键盘等 UI 操作
多环境	面向 browser、mobile、desktop 场景
动作解释	动作里可以带`intent`，说明为什么这么做
安全策略	可配置安全策略和 overrides
Prompt injection 检测	可选择扫描截图里的隐藏对抗指令

注意，它不是直接控制你的电脑。

更准确地说：

Gemini 负责看截图、理解目标、给出下一步动作；真正执行动作的是你的客户端环境。

比如浏览器场景里，可以用 Playwright 执行它返回的点击、输入和截图循环：

截图 -> Gemini 判断下一步 -> Playwright 执行 -> 再截图 -> 继续

所以它不是普通 function calling。

function calling 是调用你定义好的函数；computer use 面对的是变化中的界面，要判断按钮、输入框、当前步骤和下一步操作。

也就是说，它更接近“让 Agent 使用软件”。

适合先用在哪里？

我觉得第一批适合尝试的，不是生产系统，而是这些低风险任务：

场景	适合原因
页面巡检	检查页面流程、明显错误、可访问性问题
自动化测试	像用户一样走注册、登录、提交表单等流程
资料收集	跨网页收集公开信息
表单演练	在测试环境里填写重复表单
后台预检查	用沙箱账号检查流程是否能走通

Google 官方博客提到，这项能力可以用于企业自动化任务，例如持续软件测试和跨专业应用的知识工作。

Gemini API 文档也列了类似场景：网站重复数据录入、Web 应用和用户流程测试、跨多个网站做研究。

这里我最看好的是自动化测试。

传统 E2E 测试很稳定，但也很脆。DOM 结构变了、按钮文案变了、流程多一步，脚本就可能挂。

computer use 不会替代传统测试，但可以补一种新方式：

让 Agent 像真实用户一样看页面、理解目标、尝试走完整个流程。

比如注册流程是否顺、某个入口是否能找到、多语言页面是否有明显错位、文档页面是否有可访问性问题。

别急着放权

computer use 很酷，但风险也比普通聊天大。

普通问答错了，最多是输出错。computer use 操作错了，可能会点错按钮、提交错误表单、泄露页面里的敏感信息，甚至在登录态下执行不可逆操作。

Google 官方博客里也专门提到了安全问题。

为了缓解 prompt injection 风险，Google 对 Gemini 3.5 Flash 的 computer use 做了定向对抗训练，并发布了两个可选的企业防护系统：

• 对敏感或不可逆操作要求明确用户确认；
• 如果识别到 indirect prompt injection，自动停止任务。

Gemini API 文档也提醒：Computer Use 目前仍是 Preview 能力，可能包含错误和安全漏洞。官方建议重要任务要密切监督，并避免把它用于关键决策、敏感数据，或者严重错误无法纠正的动作。

我的建议是：

场景	建议
只读浏览、页面巡检、测试环境操作	可以较早尝试
表单填写、批量后台操作	需要日志、权限和可撤销机制
支付、删除、发布、发邮件等不可逆动作	必须人工确认
涉及敏感数据或生产系统	优先用沙箱、最小权限和隔离账号

一句话：

先在测试环境里跑，不要一上来就给真实账号和高权限。

适合谁关注？

这几类人可以重点看：

人群	为什么值得看
做 AI Agent 的开发者	Agent 不再只调用 API，而是开始操作界面
做自动化测试的团队	可以尝试更接近真实用户行为的测试方式
做内部工具自动化的人	适合从低风险后台流程开始验证
做浏览器 Agent 的人	computer use 会推动浏览器沙箱和执行器生态
关注 AI 工具的人	这是 Agent 从聊天框走向真实软件的一步

不太适合的情况：

• 没有测试环境；
• 没有权限隔离；
• 没有日志回放；
• 想直接让 Agent 操作生产系统；
• 任务涉及敏感数据或不可逆动作。

最后说一句

Gemini 3.5 Flash 的 computer use 很有想象力。

它让 Agent 不只是“调用 API”，而是开始“使用软件”。

但越接近真实操作，越不能只看 Demo。

真正要关注的是：

• 它在哪个环境里操作？
• 它能看到什么数据？
• 它有什么权限？
• 它点错了能不能停？
• 它每一步能不能回放？
• 哪些动作必须经过人确认？

所以我会把它放进“值得尽快了解，但谨慎上生产”的工具能力清单里。

资料来源

• Google 官方博客：Introducing computer use in Gemini 3.5 Flash
https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/
• Gemini API 官方文档：Computer Use
https://ai.google.dev/gemini-api/docs/computer-use

TM2 个月前

发表在：CrossDesk | RustDesk、ToDesk平替

Hey there! I c᧐uld h...

刀客7 个月前

发表在：近期发现的2个挂机应用 | 未测试 | 有兴趣的可以尝试一下

@j：这就尴尬这2个我暂时还没有去尝...

j7 个月前

vyx掛了16個IP快一個月了完全沒流量...

发表在：Wipter - 全网首发 - 批量多开放大 - 保姆级教程!

@ysbg：官方是游戏规则定制者

ysbg7 个月前

为什么要检测多开？我觉得没有意义呀，因为...

刀客8 个月前

发表在：被Ban的Office-E5迎来救赎 | 新的希望 | 100GB-Outlook 和 5TB-OneDrive

@pipi：哈哈

pipi8 个月前

不错不错，按照教程搞了个E3

发表在：[装死,目测跑路]挂机网赚 - Earn.Cc

@清风：近期会整理一期文章发布

清风8 个月前

希望刀哥把利润高的标注一下谢谢

刀客9 个月前

@清风：好的.感谢支持

Google 把“操作电脑”塞进 Gemini 3.5 Flash 了

分类推荐

相关内容

评论一下吧

最新文章