众力资讯网

谷歌发布 Gemini 2.5 Computer Use 模型:专攻浏览器交互,支持 13 种操作

谷歌最近发布了一个新模型,叫 Gemini 2.5 Computer Use。听起来名字有点拗口,但它的功能其实很直观:

谷歌最近发布了一个新模型,叫 Gemini 2.5 Computer Use。

听起来名字有点拗口,但它的功能其实很直观:

这个 AI 能在浏览器里“动手”操作网页,就像你我坐在电脑前点鼠标、敲键盘一样。

它能完成 13 种基础操作,比如打开网页、输入文字、点击按钮、拖拽元素、提交表单等等。

更重要的是,它不是靠后台接口或者程序调用,而是真的“看”网页、“理解”页面内容,再做出对应动作。

这件事乍一听好像没什么特别的——不就是自动填个表单吗?

但如果你稍微往深里想一层,就会发现,这其实代表了一种全新的 AI 使用方式。

过去我们用 AI,基本都是“问它问题,它给答案”,比如“帮我写封邮件”“解释一下量子力学”“生成一张海边日落的图”。

AI 是个“嘴强王者”,说得头头是道,但动不了手。

而 Gemini 2.5 Computer Use 的出现,意味着 AI 开始有了“数字手脚”,能真正替你干活了。

为什么这件事值得认真对待?

因为它解决了一个长期存在的痛点:

很多系统根本没给 AI 留“后门”。

比如你家小区的物业缴费网站,可能只有网页界面,没有开放 API;

你公司用的某个老旧审批系统,也只支持人工点击操作。

这些系统对人类用户很友好,但对 AI 来说却是“黑箱”——它看不懂,也进不去。

而 Gemini 2.5 Computer Use 的思路很聪明:

既然不能走后门,那就走正门。

它像人一样,用眼睛(视觉理解)看网页,用脑子(推理能力)判断该点哪里,再用手(操作指令)完成任务。

这种能力听起来有点像我们熟悉的“自动化脚本”或“RPA”(机器人流程自动化)。

但区别在于,传统 RPA 是死板的——你必须提前告诉它“第3行第2列的按钮叫‘提交’,点它”。

一旦网页改版,按钮位置变了,脚本就失效了。

而 Gemini 2.5 Computer Use 是“活”的。它能理解语义。

比如你让它“把购物车里的苹果数量改成3个”,它不会去找某个固定坐标的输入框,而是先识别出“苹果”这个商品,再找到对应的数量输入栏,最后填入“3”。

这种灵活性,是过去自动化工具做不到的。

谷歌在演示视频里展示了几个例子:

让 AI 玩 2048 游戏、浏览 Hacker News 的热门帖子、根据食材清单自动把商品加入购物车。

这些任务看似简单,但背后涉及复杂的视觉识别、逻辑判断和操作序列生成。

更关键的是,谷歌明确表示,这个模型目前只在浏览器环境里运行,不能控制整个电脑系统。这既是技术限制,也是安全考量。

毕竟,让 AI 随意操作你的桌面文件,风险太大。

那么,这种“会操作浏览器的 AI”到底能干啥?

先说说最直接的应用场景:客户服务。

想象一下,你是一家电商公司的客服主管。

每天有成百上千个用户问:

“我的订单怎么还没发货?”

“能不能改地址?”

“退货流程怎么走?”

过去,客服要登录后台系统,一个个查订单、点按钮、填表单。

现在,如果把这些重复性操作交给 Gemini 2.5 Computer Use,AI 就能自动完成大部分流程,只把真正需要人工判断的复杂问题留给客服。

效率提升不说,错误率也会大幅下降。

再比如企业内部的日常办公。

财务人员每个月都要登录不同银行网站下载对账单,再导入 Excel 做核对。

HR 要定期在社保系统里更新员工信息。

这些工作枯燥、重复、耗时,但又不能出错。

有了这种 AI 助手,只要给它清晰的指令,它就能按部就班地完成,还能自动截图留痕,方便后续审计。

对普通用户来说,好处也不少。

比如你想比价,可以告诉 AI:

“去京东、淘宝、拼多多,分别搜‘iPhone 16 256G’,把价格和配送时间列出来。”

它就能自动打开三个网站,搜索、截图、提取信息,最后汇总给你。

或者你在网上看到一篇长文章,想保存到笔记软件,但又懒得复制粘贴,可以直接说:

“把这篇文章存到我的 Notion 里。”

AI 就会打开 Notion,新建页面,粘贴内容,甚至自动加标签。

当然,这一切的前提是:你信任它。

毕竟,一旦授权 AI 操作你的账号,就意味着它能看到你的个人信息、操作记录,甚至支付密码,虽然谷歌强调不会存储这些。

所以谷歌在设计上做了不少限制。

比如模型只能在浏览器沙盒里运行,不能访问本地文件;

所有操作都有日志可查;

AI 生成的内容还嵌入了 SynthID 水印,方便追溯是否为 AI 所为。

这些措施虽然不能百分百杜绝风险,但至少表明谷歌在认真对待安全问题。

从技术角度看,Gemini 2.5 Computer Use 的核心是“视觉理解 + 推理 + 操作”的闭环。

它先用多模态模型“看懂”网页截图,包括文字、按钮、图片等元素,再结合用户指令进行推理,“用户要改地址,那得先找到订单详情页里的‘修改地址’链接”,最后生成具体的操作步骤(“点击该链接 → 清空旧地址 → 输入新地址 → 点击保存”)。

这个过程听起来简单,但每一步都依赖强大的底层模型能力。

而 Gemini 2.5 系列恰好在这些方面有深厚积累:

百万 token 的上下文、多模态输入、高级推理能力,都是支撑这一功能的基础。

值得注意的是,谷歌并不是唯一在做这件事的公司。

就在 Gemini 2.5 Computer Use 发布前不久,OpenAI 也升级了 ChatGPT 的智能体功能,让它能代理用户完成复杂任务。

Anthropic 的 Claude 也早有“计算机使用”版本。

这说明,行业共识正在形成:

下一代 AI 不只是“聊天机器人”,而是“数字员工”。

它们不仅要会说,还要会做。

不过,谷歌的策略似乎更聚焦。

它没有试图让 AI 控制整个操作系统,而是先把浏览器这个“最大公约数”做好。

毕竟,现在绝大多数工作和生活场景,都已经迁移到网页端。

无论是办公、购物、社交还是娱乐,我们大部分时间都在浏览器里度过。

抓住这个入口,就等于抓住了 AI 落地的关键场景。

回到用户视角,我们可能会担心:

这会不会抢走很多人的饭碗?

比如客服、文员、数据录入员。

这种担忧不无道理。高盛的一份报告就提到,到 2027 年,具备实操能力的 AI 可能替代近一半的文书类岗位。

但历史经验告诉我们,技术淘汰旧岗位的同时,也会创造新机会。

比如,未来可能会出现“AI 流程设计师”:

专门负责教 AI 怎么完成复杂任务;

或者“AI 监督员”,审核 AI 操作的合规性和准确性。

更重要的是,当 AI 接管了那些重复、机械的工作,人类就能把精力放在更有创造性、更需要情感和判断力的事情上,比如客户关系维护、产品设计、战略决策。

从产品节奏来看,谷歌显然在加速推进 Gemini 的落地。

Gemini 2.5 系列已经分化出多个版本:Pro 版主打高性能,适合复杂推理和创作;

Flash 版强调低成本和低延迟,适合高并发场景;

Deep Think 版专攻数学和科研;

现在又出了 Computer Use 版,专注浏览器操作。

这种“分层策略”很聪明——不同用户按需选择,既避免了资源浪费,也降低了使用门槛。

目前,Gemini 2.5 Computer Use 已经通过 Google AI Studio 和 Vertex AI 向开发者开放。

普通用户虽然还不能直接用,但可以通过 Browserbase 平台观看实时演示。

比如看 AI 怎么玩 2048,怎么在 Hacker News 里找热门话题。

这些演示虽然简单,但足以让人感受到技术的潜力。

长远来看,这种“能操作界面的 AI”可能会改变我们与数字世界互动的方式。

未来,我们或许不再需要记住各种网站的操作流程,也不用在不同应用之间来回切换。

只要告诉 AI 你想做什么,它就会默默帮你完成。

这种体验,有点像雇了一个永远在线、从不抱怨、记忆力超强的助理。

当然,这条路还很长。

现在的 Gemini 2.5 Computer Use 只能处理 13 种基础操作,面对复杂的多步骤任务,或者设计混乱的网页,可能还是会出错。

但它已经迈出了关键一步——从“被动应答”走向“主动执行”。

这一步的意义,不在于它现在能做多少事,而在于它打开了一个全新的可能性空间。

最后说点实在的。

如果你是个普通用户,不用急着学什么新技术,但可以开始留意:

哪些日常操作是重复的、规则明确的、可以在浏览器里完成的?

这些很可能就是第一批被 AI 接管的任务。

如果你是个开发者,不妨去 Google AI Studio 试试这个新模型,看看能不能用它优化你的工作流。

如果你是个企业管理者,或许该思考:

如何把这类 AI 工具融入现有业务,提升效率的同时,也重新定义员工的角色。

技术从来不是洪水猛兽,关键看你怎么用。

Gemini 2.5 Computer Use 不是来取代人类的,而是来帮我们摆脱那些本不该由人来做的琐事。

当 AI 开始“动手”,我们反而能更专注于“动脑”和“动心”,这才是技术进步真正该带来的价值。