Knowledge VaultReading Workbench
Reading Detail

【开源】三级了!开源一个项目,AI Agent 复用本机真实 Chrome 会话的浏览器控制 CLI,支持读取页面、执行 JS、操作标签页、获取 Cookie、截图和上传文件,保留登录态

LINUX DO - 热门话题 · 2026-05-13
#开发调优
Open Original
inboxunread

Snapshot Reader

Captured

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


今天终于三级了,开源一个自用的工具

首先感谢 GenericAgent——复旦团队研发 | 仅仅~3K 行代码 Self-Evolving Agent ,在此项目基础上,提取插件,改造成当前cli工具。

项目地址

支持 window(包括wsl) / Mac / Linux (需要能使用chrome拓展)

为什么开发这个

  1. 其他 mcp 用的不舒服,没有登录态,不能操作当前真实浏览器,速度慢。
  2. agent-browser-cli 的目的,是让 AI Agent 能直接使用你本机已经打开的 Chrome,复用登录态、Cookie 和当前页面环境,而不是重新启动一个隔离浏览器。
  3. 之所以做成独立 CLI+skill 形式,是因为 CLI 最通用。Codex、Claude Code、OpenCode、Shell 脚本都能直接调用,安装后就能在终端验证和排查问题。
  4. 没有做成 MCP,是因为 MCP 依赖客户端支持和额外配置,调试链路也更长。浏览器控制这种本机能力,做成 CLI 可以随时使用,不需要预先加载mcp,mcp不用时候开启还会浪费一定token.

在原项目下做了哪些改动

  1. 由python实现改成rust重构,命令执行速度更快。
  2. 独立 CLI + skill 形态 安装更方便,不绑定agent平台,Codex、Claude Code、OpenCode、Shell 脚本都能直接调用。
  3. 优化右下角连接角标,会自动隐藏,只在浏览器被控制时才会显示。
  4. 新增了新开标签页的功能。

他能做的事情

  1. 自动化测试
    可以复用真实浏览器环境做页面流程验证、表单提交、按钮点击、跳转检查、登录态页面测试。
  2. 前端页面 Debug
    可以读取 DOM、执行 JS、查看页面状态、截图确认效果,辅助定位前端交互、渲染和数据问题,对接后端接口。
  3. 页面样式调试
    可以在真实页面里执行 JS 修改 DOM / CSS,临时验证样式、布局和交互效果,但更偏辅助调试,不是完整设计工具。
  4. 网页数据采集
    可以读取页面内容、表格、列表、Cookie 和接口相关状态,适合处理需要登录态的页面数据提取。
  5. 浏览器操作脚本化
    可以把打开页面、切换标签页、执行 JS、截图、上传文件等操作串成脚本,做重复性网页任务。
  6. Agent 辅助操作网页后台
    适合让 AI Agent 操作管理后台、配置页面、低代码平台、表单系统等已有网页工具。
  7. 页面结构分析
    可以简化 HTML、识别主要内容区和列表结构,帮助 Agent 更快理解复杂页面。
  8. 安全研究和逆向辅助
    可以在真实浏览器会话里观察页面行为、执行调试脚本、读取前端状态,辅助分析前端逻辑和接口调用

他的能力

  1. 扫描当前 Chrome 标签页,获取页面标题、URL 和标签页 ID。
  2. 切换到指定标签页,复用已有页面和登录态。
  3. 打开新标签页,支持直接访问目标 URL。
  4. 在页面中执行 JavaScript,读取 DOM、表单、状态和页面数据。
  5. 读取当前页面 Cookie,方便处理登录态相关任务。
  6. 调用 Chrome CDP 能力,执行更底层的页面控制。
  7. 截取页面截图,用于视觉检查和页面确认。
  8. 上传本地文件到网页文件选择框。
  9. 操作下拉框、按钮、表单等常见页面元素。

怎么安装

丢给ai

请阅读 https://github.com/sleepinginsummer/agent-browser-cli/blob/main/AI_INSTALL.md,按说明安装 CLI、加载 Chrome 扩展,并添加 `skills/agent-browser-cli/SKILL.md`。

注意:插件需要手动加载到chrome,可以提前告知ai插件下载文件夹路径。手动加载。插件在项目中/assets/tmwd_cdp_bridge

cli三个组成部分

npm安装的agent-browser-cli (本体) + skill.md (使用说明) + chrome 拓展

使用截图

image

最后,欢迎大家使用和提意见

29 个帖子 - 13 位参与者

阅读完整话题