how i ai 最近深度体验了腾讯开源的 BrowserSkill,这款工具彻底改变了 AI Agent 与浏览器的交互方式。
BrowserSkill 的核心设计理念非常巧妙:它不是一个独立的浏览器自动化框架,而是搭建了一座桥梁,让 AI Agent 能够安全、高效地操控用户真实登录的 Chrome 或 Edge 浏览器。传统方案要么要求 AI 自己管理 Cookie 和登录状态,要么在隔离环境中运行导致无法访问已登录的网站,而 BrowserSkill 通过 CLI + 浏览器扩展的架构完美解决了这个痛点。
技术架构上,BrowserSkill 采用三层设计:bsk CLI 作为命令入口,本地 Daemon 负责进程管理和协议转发,浏览器扩展则在 Chromium 内核中运行,开启独立的 Agent Window 执行自动化任务。这种设计的精妙之处在于隔离性——AI 的操作被限制在专门的 Agent Window 中,用户的正常浏览标签页完全不受影响。如果 AI 需要操作某个已打开的页面,必须显式执行 bsk tab borrow 借用该标签页,使用完毕后还需执行 bsk tab return 归还,这种设计最大程度保障了用户数据安全。
实际使用中,BrowserSkill 的命令设计非常直观。bsk session start 启动会话时会返回一个 4 字母的会话 ID,后续所有命令都需要携带 --session 参数。bsk snapshot 命令尤为实用,它返回页面的 aria tree 结构,包含 等元素引用,AI 可以直接用这些引用执行点击、输入等操作,无需处理复杂的 CSS 选择器。bsk navigate、bsk click、bsk fill、bsk screenshot 等命令覆盖了浏览器自动化的核心场景,而 bsk evaluate 则允许在页面上下文中执行 JavaScript,处理更复杂的逻辑。
与其他浏览器自动化工具相比,BrowserSkill 的最大优势是原生支持用户登录态。无论是访问知乎、微博还是其他需要登录的网站,AI 都能直接以用户身份操作,无需重复扫码或输入密码。这对于需要频繁操作社交媒体的 AI 工作流来说,效率提升是巨大的。同时,由于使用真实的 Chromium 浏览器,页面渲染和行为与人工浏览完全一致,避免了无头浏览器常见的反爬虫检测问题。
目前 BrowserSkill 支持 macOS、Linux 和 Windows 平台,兼容 Chrome 和 Edge 浏览器,并提供了针对 Cursor、Claude Code、Codex、Hermes Agent 等主流 AI 开发环境的 Skill 安装命令。项目采用 MIT 协议开源,社区活跃度高,未来还计划支持 Firefox 浏览器。对于需要让 AI 操作网页又担心安全和便利性的用户来说,BrowserSkill 无疑是当前最值得尝试的解决方案。