Snapshot Reader
Captured
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
今天终于三级了,开源一个自用的工具
首先感谢 GenericAgent——复旦团队研发 | 仅仅~3K 行代码 Self-Evolving Agent ,在此项目基础上,提取插件,改造成当前cli工具。
项目地址
支持 window(包括wsl) / Mac / Linux (需要能使用chrome拓展)
为什么开发这个
- 其他 mcp 用的不舒服,没有登录态,不能操作当前真实浏览器,速度慢。
- agent-browser-cli 的目的,是让 AI Agent 能直接使用你本机已经打开的 Chrome,复用登录态、Cookie 和当前页面环境,而不是重新启动一个隔离浏览器。
- 之所以做成独立 CLI+skill 形式,是因为 CLI 最通用。Codex、Claude Code、OpenCode、Shell 脚本都能直接调用,安装后就能在终端验证和排查问题。
- 没有做成 MCP,是因为 MCP 依赖客户端支持和额外配置,调试链路也更长。浏览器控制这种本机能力,做成 CLI 可以随时使用,不需要预先加载mcp,mcp不用时候开启还会浪费一定token.
在原项目下做了哪些改动
- 由python实现改成rust重构,命令执行速度更快。
- 独立 CLI + skill 形态 安装更方便,不绑定agent平台,Codex、Claude Code、OpenCode、Shell 脚本都能直接调用。
- 优化右下角连接角标,会自动隐藏,只在浏览器被控制时才会显示。
- 新增了新开标签页的功能。
他能做的事情
- 自动化测试
可以复用真实浏览器环境做页面流程验证、表单提交、按钮点击、跳转检查、登录态页面测试。 - 前端页面 Debug
可以读取 DOM、执行 JS、查看页面状态、截图确认效果,辅助定位前端交互、渲染和数据问题,对接后端接口。 - 页面样式调试
可以在真实页面里执行 JS 修改 DOM / CSS,临时验证样式、布局和交互效果,但更偏辅助调试,不是完整设计工具。 - 网页数据采集
可以读取页面内容、表格、列表、Cookie 和接口相关状态,适合处理需要登录态的页面数据提取。 - 浏览器操作脚本化
可以把打开页面、切换标签页、执行 JS、截图、上传文件等操作串成脚本,做重复性网页任务。 - Agent 辅助操作网页后台
适合让 AI Agent 操作管理后台、配置页面、低代码平台、表单系统等已有网页工具。 - 页面结构分析
可以简化 HTML、识别主要内容区和列表结构,帮助 Agent 更快理解复杂页面。 - 安全研究和逆向辅助
可以在真实浏览器会话里观察页面行为、执行调试脚本、读取前端状态,辅助分析前端逻辑和接口调用
他的能力
- 扫描当前 Chrome 标签页,获取页面标题、URL 和标签页 ID。
- 切换到指定标签页,复用已有页面和登录态。
- 打开新标签页,支持直接访问目标 URL。
- 在页面中执行 JavaScript,读取 DOM、表单、状态和页面数据。
- 读取当前页面 Cookie,方便处理登录态相关任务。
- 调用 Chrome CDP 能力,执行更底层的页面控制。
- 截取页面截图,用于视觉检查和页面确认。
- 上传本地文件到网页文件选择框。
- 操作下拉框、按钮、表单等常见页面元素。
怎么安装
丢给ai
请阅读 https://github.com/sleepinginsummer/agent-browser-cli/blob/main/AI_INSTALL.md,按说明安装 CLI、加载 Chrome 扩展,并添加 `skills/agent-browser-cli/SKILL.md`。
注意:插件需要手动加载到chrome,可以提前告知ai插件下载文件夹路径。手动加载。插件在项目中/assets/tmwd_cdp_bridge
cli三个组成部分
npm安装的agent-browser-cli (本体) + skill.md (使用说明) + chrome 拓展
使用截图
最后,欢迎大家使用和提意见
29 个帖子 - 13 位参与者
