Snapshot Reader
Captured
📌 一句话摘要
TACO 是一个无需训练、即插即用的终端智能体自进化观测压缩框架,让 Agent 在真实交互轨迹中学会过滤低价值终端输出,同时保留关键行动线索,从而提升长程任务成功率和 Token 效率。
📝 详细摘要
本文介绍了由曼彻斯特大学、北京航空航天大学、香港科技大学及 MAP 研究团队联合提出的 TACO 框架。针对 CLI Agent 在长程任务中面临的「上下文变脏」问题——即大量低价值终端输出(如安装日志、编译流水、下载进度)堆满上下文窗口,淹没关键决策线索,TACO 提出了一种无需训练的自进化规则引擎。其核心机制包括:Terminal Output Compression(基于规则压缩)、Intra-Task Rule Set Evolution(任务内动态纠偏,生成新规则并检测过度压缩)、Global Rule Pool Evolution(跨任务沉淀有效规则)。实验表明,在 TerminalBench 1.0/2.0 及 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 等多个基准上,TACO 在提升任务成功率的同时降低了 Token 消耗。论文还通过 Retention 指标证明了规则池的收敛性,并通过案例展示了 TACO 如何将 10,000 字符的安装日志压缩至 73 字符,同时保留编译参数、符号地址等关键线索。
💡 主要观点
- 长程 CLI Agent 的核心瓶颈不是上下文窗口不够大,而是上下文在多轮交互中变得越来越脏。 安装日志、编译输出等低价值反馈堆满上下文,淹没关键线索。实验显示,在 Qwen3-Coder-480B 等模型的轨迹中,低价值冗余占比达 24.6%-44.1%。
- TACO 通过自进化规则引擎实现终端观测压缩,核心是判断哪些内容可安全过滤、哪些必须保留。 TACO 抛弃了人工预设截断或 LLM 实时总结,构建了由触发条件、保留模式和剔除模式组成的函数式规则,并通过任务内动态纠偏和全局跨域沉淀实现自我演化。
- TACO 在多个基准上同时提升了任务成功率和 Token 效率,且提升并非来自增加交互步骤。 在 TerminalBench 上,TACO 插入 Terminus-2 后多个模型获得稳定提升。在固定 Token Budget 下,TACO 仍获得更高准确率,说明其提高了有效信息密度。
- TACO 的规则池具有收敛性,可通过 Retention 指标判断自进化是否稳定。 当连续多轮演化后 Top-K 规则的重合比例(Retention)超过 90%,任务准确率的波动也明显下降,说明系统已学到一组稳定可复用的压缩规则。
💬 文章金句
- 问题不一定是上下文窗口不够大,而是上下文在多轮交互中变得越来越 '脏'。
- terminal observation compression 的难点不只是 '压短',而是判断:哪些内容可以安全过滤,哪些信息必须保留。
- TACO 的关键不是 '压得更狠',而是 self-evolving:它会在真实交互轨迹中观察哪些规则有效、哪些规则可能压缩过度,并把可复用的规则沉淀到全局规则池中。
- 让 Agent 学会丢掉无效观察,才能让它在长程任务中走得更稳。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3877
标签:
TACO, CLI Agent, 上下文压缩, 自进化, 终端智能体