Knowledge Vault

Snapshot Reader

Captured

📌 一句话摘要

TACO 是一个无需训练、即插即用的终端智能体自进化观测压缩框架，让 Agent 在真实交互轨迹中学会过滤低价值终端输出，同时保留关键行动线索，从而提升长程任务成功率和 Token 效率。

📝 详细摘要

本文介绍了由曼彻斯特大学、北京航空航天大学、香港科技大学及 MAP 研究团队联合提出的 TACO 框架。针对 CLI Agent 在长程任务中面临的「上下文变脏」问题——即大量低价值终端输出（如安装日志、编译流水、下载进度）堆满上下文窗口，淹没关键决策线索，TACO 提出了一种无需训练的自进化规则引擎。其核心机制包括：Terminal Output Compression（基于规则压缩）、Intra-Task Rule Set Evolution（任务内动态纠偏，生成新规则并检测过度压缩）、Global Rule Pool Evolution（跨任务沉淀有效规则）。实验表明，在 TerminalBench 1.0/2.0 及 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 等多个基准上，TACO 在提升任务成功率的同时降低了 Token 消耗。论文还通过 Retention 指标证明了规则池的收敛性，并通过案例展示了 TACO 如何将 10，000 字符的安装日志压缩至 73 字符，同时保留编译参数、符号地址等关键线索。

💡 主要观点

长程 CLI Agent 的核心瓶颈不是上下文窗口不够大，而是上下文在多轮交互中变得越来越脏。 安装日志、编译输出等低价值反馈堆满上下文，淹没关键线索。实验显示，在 Qwen3-Coder-480B 等模型的轨迹中，低价值冗余占比达 24.6%-44.1%。
TACO 通过自进化规则引擎实现终端观测压缩，核心是判断哪些内容可安全过滤、哪些必须保留。 TACO 抛弃了人工预设截断或 LLM 实时总结，构建了由触发条件、保留模式和剔除模式组成的函数式规则，并通过任务内动态纠偏和全局跨域沉淀实现自我演化。
TACO 在多个基准上同时提升了任务成功率和 Token 效率，且提升并非来自增加交互步骤。 在 TerminalBench 上，TACO 插入 Terminus-2 后多个模型获得稳定提升。在固定 Token Budget 下，TACO 仍获得更高准确率，说明其提高了有效信息密度。
TACO 的规则池具有收敛性，可通过 Retention 指标判断自进化是否稳定。 当连续多轮演化后 Top-K 规则的重合比例（Retention）超过 90%，任务准确率的波动也明显下降，说明系统已学到一组稳定可复用的压缩规则。

💬 文章金句

问题不一定是上下文窗口不够大，而是上下文在多轮交互中变得越来越 '脏'。
terminal observation compression 的难点不只是 '压短'，而是判断：哪些内容可以安全过滤，哪些信息必须保留。
TACO 的关键不是 '压得更狠'，而是 self-evolving：它会在真实交互轨迹中观察哪些规则有效、哪些规则可能压缩过度，并把可复用的规则沉淀到全局规则池中。
让 Agent 学会丢掉无效观察，才能让它在长程任务中走得更稳。

📊 文章信息

AI 初评：86

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3877

标签： TACO, CLI Agent, 上下文压缩, 自进化, 终端智能体

阅读完整文章