Knowledge Vault

Snapshot Reader

Captured

本周的关键词是「Agent 化」。前沿模型集中发布——GPT-5.5、DeepSeek V4、Kimi K2.6 都在强调 Agent 场景下的工具调用和长程执行能力；与此同时，围绕 Agent 的记忆、安全、编排和协作基础设施密集涌现，编码 Agent 正从个人工具走向组织级生产系统。

资讯

Intercom 用 Claude Code 9 个月内将研发吞吐量翻倍

Intercom 高级首席工程师 Brian Scanlan 在 Lenny’s Newsletter 的访谈中分享了他们的实践：100% 的工程师（包括设计师和 PM）通过 Claude Code 提交代码，合并 PR 数量在 9 个月内翻倍。他们建立了技能仓库、hooks 自动执行工程规范、Honeycomb 遥测追踪 AI 使用质量，并在探索让 SaaS 产品对 Agent 更友好——提供 CLI、MCP 和可机器消费的 API。这是一份公开细节较多的『全员 AI 编码』落地案例。

Claude Code 质量波动复盘

Anthropic 发布了一篇工程复盘，解释近期用户反馈「Claude Code 变笨了」的原因。问题并非模型本身退化，而是产品层的三个独立变更叠加：默认推理强度从 high 下调到 medium、缓存优化的 bug 导致长会话丢失历史推理、以及一条控制输出长度的系统提示意外拉低了编码质量约 3%。三个问题已在 4 月 20 日的 v2.1.116 中修复。对做 AI 编程工具的团队来说，这是一份关于 test-time compute 和 prompt 变更治理的实用教训。

Linear 发布 Agent 交互指南

Linear AIG 为 Agent 进入软件工作流定义了一组设计原则：Agent 必须披露身份、融入平台原生 UI、实时反馈内部状态、允许用户随时退出、支持审计推理过程，且最终责任归属人类。这不是技术规范，而是产品设计层面的人机协作契约，对正在把 Agent 嵌入产品的团队有参考价值。

Google 第八代 TPU：训练与推理分家

Google 在 Cloud Next 上发布了 TPU 8t 和 TPU 8i，将训练和推理拆成两款芯片。TPU 8t 面向超大规模训练，单 superpod 可扩展至 9,600 颗芯片、2PB 共享 HBM；TPU 8i 面向低延迟推理和多 Agent 协同，配备 288GB HBM 和片上集合加速引擎，部分延迟降低最高 5 倍。Google 称 TPU 8i 每美元性能比上一代提升 80%。

GPT-5.5 Bio Bug Bounty

OpenAI 围绕 GPT-5.5 启动了生物安全 Bug Bounty，悬赏 25,000 美元寻找能绕过五个生物安全问题防护的 universal jailbreak。测试窗口从 4 月底持续到 7 月底，申请制参与，所有发现受 NDA 约束。这反映了前沿模型发布后，安全红队正在成为标准流程。

模型

GPT-5.5 登陆 API

OpenAI 发布了 GPT-5.5 和 GPT-5.5 Pro 的 API 接入指南。GPT-5.5 定位于复杂生产工作流：代码任务、工具密集型 Agent、长上下文检索和面向客户的对话。关键变化包括——同等推理强度下消耗更少 reasoning tokens、默认 reasoning.effort 改为 medium、指令遵循更字面化、默认语气更简洁。OpenAI 建议不要把它当作 GPT-5.2/5.4 的直接替换，而是作为新模型家族重新调优 prompt。

DeepSeek V4 Preview：1M 上下文、双档开源

DeepSeek-V4 Preview 发布 Pro 和 Flash 两个版本。Pro 为 1.6T 总参数、49B 激活，定位接近顶级闭源模型的开源旗舰；Flash 为 284B 总参数、13B 激活，主打速度和成本。两者默认支持 1M 上下文，采用 token-wise compression 和 DeepSeek Sparse Attention 降低长序列开销，支持华为昇腾芯片，可与 Claude Code、OpenCode 等 Agent 工作流集成。旧的 deepseek-chat 和 deepseek-reasoner 将在 7 月退役。

Kimi K2.6 刷新多个开源 Agent 基准

Moonshot 发布 Kimi K2.6，一个 1T 参数的 MoE 模型（32B 激活、384 experts），开放权重，支持 256K 上下文和多模态。它在 SWE-Bench Pro（58.6）、BrowseComp（83.2）等多个 Agent 基准上刷新了开源 SOTA，更引人注意的是长程执行能力——官方演示了超过 4,000 次工具调用、12 小时连续运行的编码任务。发布当天即获得 vLLM、OpenRouter、Cloudflare Workers AI 等生态支持。社区反馈主要集中在它作为 Claude/GPT 编码后端的可用性，以及长时运行、工具调用和基础设施任务中的表现。

GPT-Image-2：图像生成重回产品核心功能

OpenAI 推出 GPT-Image-2，在文本渲染、布局保真、多图编辑和多语言支持上更新明显。Arena 排名显示它在文生图、单图编辑和多图编辑三个榜单均排名第一，文生图 Elo 领先第二名 +242 分。Figma、Canva、Adobe Firefly 等工具已接入。更有意思的趋势是图像生成正在成为编码 Agent 的前端：先生成 UI mockup，再让 Codex 按视觉参考实现代码。

Decoupled DiLoCo：跨地域弹性训练

Google DeepMind 发布 Decoupled DiLoCo，将大规模训练拆分为多个解耦的计算岛屿，通过异步数据流交换更新。在 8 个数据中心场景中，带宽需求从 198 Gbps 降至 0.84 Gbps；在模拟 120 万芯片高故障率环境中维持 88% goodput（传统方法仅 27%）。他们已用该架构在美国四个区域训练了一个 12B 模型。这项工作指向一种可能性：前沿模型训练不再依赖单一超大集群，而是走向跨地域、混合硬件的弹性架构。

LamBench：Lambda Calculus 视角的模型评测

LamBench 用 120 道 lambda calculus 任务评估模型的形式推理能力。当前靠前结果包括：GPT-5.4（91.7%）、Opus 4.6（90.0%）、GPT-5.3 Codex（89.2%）、Opus 4.7 与 Gemini 3.1 Pro（均为 88.3%）。有趣的是 GPT-5.5 只排到 78.3%，说明新模型在特定推理维度上并不总是线性进步。作为传统代码和数学基准之外的补充视角，值得关注。

工具

Anthropic 的 MCP 生产集成指南

Anthropic 发布了一篇系统性的 Agent 集成指南，比较了 API 直连、CLI 和 MCP 三种方式的适用场景。对生产级 Agent，MCP 是推荐路径——MCP SDK 月下载量已突破 3 亿。文章给出了实用的设计模式：按意图而非端点组织工具、对超大 API 面暴露代码执行入口、用 elicitation 收集缺失参数、通过 tool search 减少 85% 的工具定义 token。

Claude Managed Agents 内置记忆

Claude Managed Agents 的记忆功能进入公测。记忆基于文件系统挂载，Agent 可以跨会话学习，多个 Agent 可并发读写同一个 store 而不互相覆盖。Netflix 用它替代手动 prompt 更新；Rakuten 报告首次通过错误减少 97%、成本降低 27%；Wisedocs 的文档验证速度提升 30%。所有记忆变更都有审计日志，支持回滚和内容删除。

Codex Chronicle：从屏幕上下文到 Agent 记忆

OpenAI 的 Chronicle 是一个研究预览功能，让 Codex 从用户屏幕内容中自动构建记忆——比如识别失败的 CI 运行、推断常用工具和联系人。这标志着编码 Agent 从「用户手动复述上下文」转向「环境感知」。目前仅限 macOS Pro 用户，且存在隐私和 prompt injection 风险，需要在查看敏感内容时手动暂停。

Browser Harness：自修复的浏览器 Agent 工具

browser-use/browser-harness 是一个极简的浏览器 Agent harness，GitHub 约 6.9k stars。核心思路是只暴露到 Chrome 的 CDP websocket，当 Agent 缺少某个 helper（比如文件上传）时，可以在任务中直接修改 helpers.py 补齐功能然后继续执行。项目还提供 domain-skills/ 目录沉淀站点级经验，适合快速实验浏览器自动化场景。

Google agents-cli：编码助手变身 Agent 开发助手

Google 开源了 agents-cli，让 Gemini CLI、Claude Code、Codex 等编码助手具备 Agent 开发全生命周期能力——scaffold、eval、deploy、publish 到 Gemini Enterprise 平台。这代表了一种「工具 + 技能 + 云平台」的企业 Agent 开发范式：编码助手不仅生成代码，还理解评估方法、部署治理和云端发布流程。

Agent Vault：Agent 不应直接持有凭据

Infisical 开源的 Agent Vault 是一个 HTTP credential proxy，在网络层为 Agent 注入凭据，而不是把 secret 返回给 Agent 本身。Agent 获得一个 scoped session 和本地 HTTPS_PROXY，像平常一样调用目标 API。凭据使用 AES-256-GCM 加密存储，每次请求都有审计日志。支持 Claude Code、Cursor、Codex 等本地编码 Agent，也可配合 Docker 沙箱实现更强隔离。

CrabTrap：传输层拦截 Agent 出站请求

Brex 开源的 CrabTrap 是一个 HTTP/HTTPS 代理，拦截 Agent 的每个网络请求，用静态规则 + LLM judge 决定放行或拒绝。它运行在传输层，不绑定任何 Agent 框架。生产经验显示：从真实流量生成策略后，高频请求变成静态规则，LLM judge 只处理长尾，触发率低于 3%。与 Agent Vault 的凭据代理互补，两者组合可以覆盖凭据暴露和异常出站请求这两类常见风险。

Stash：开源 MCP 原生 Agent 记忆层

Stash 基于 PostgreSQL + pgvector，为任意 Agent 提供持久记忆。它不是简单的 RAG 检索，而是从 Agent 经历中自动生成知识：原始对话存为 episodes，后台 consolidation 聚合为 facts，再抽取实体关系、因果链、矛盾和失败经验。通过 MCP 暴露 remember、recall、forget、goals 等工具，支持 Claude Desktop、Cursor、OpenCode 和本地模型。

WUPHF：多 Agent 共享的 Git 知识库

WUPHF 让多个 AI Agent 在共享频道中分工协作，每个 Agent 有自己的 notebook，团队共享一个 Markdown + Git wiki。wiki 不是普通文件夹，而是一个 git-native 的知识图谱——包含 typed facts、实体关系、LLM 合成的 briefs 和引用式检索，还有 lint 检查来发现矛盾和过期声明。项目强调 fresh session per turn 和 prompt caching 来控制多轮协作的上下文膨胀。

Cognition：多 Agent 和云端 Agent 的实战经验

Cognition 本周发了两篇实践总结。Multi-Agents: What’s Actually Working 从 Devin 经验出发，分享了三种可行的多 Agent 模式：generator-verifier 代码审查循环（关键发现：reviewer 不共享 coder 的上下文反而效果更好）、Smart Friend 模型委托（弱模型遇到难题时调用强模型）、以及 manager-child 任务分解。What We Learned Building Cloud Agents 则拆解了云端 Agent 基础设施的难点：容器共享内核的安全威胁、快照恢复以支持异步工程流程、百级并发的编排与治理。Cognition 称，Itaú 银行（17,000 名工程师）在迁移项目中使用 Devin 后，迁移速度提升 5-6 倍。

CursorBench：贴近真实开发的模型评测

CursorBench 是 Cursor 基于工程团队真实使用会话构建的内部评测基准。它通过 Cursor Blame 把提交代码追溯到生成该代码的 Agent 请求，形成查询-答案配对，评估正确性、代码质量和交互行为。Cursor 指出公开基准存在一致性不足、评分困难和训练污染三个问题，并用真实流量上的受控在线评估补充离线结果。

How LLMs Actually Work：可交互的视觉教程

这个交互式指南基于 Karpathy 的 LLM 入门讲座，覆盖数据收集、tokenization、预训练、推理采样、后训练和 RAG 的完整流程。不是新闻，但对团队内部培训、向非技术同事解释 LLM 工作原理很实用。

结语

本周最明显的信号是：Agent 不再只是一个模型能力问题，它正在变成一个系统工程问题。从凭据管理、网络策略、记忆持久化到多 Agent 编排，每一层都在快速标准化。与此同时，DeepSeek 和 Moonshot 在同一周密集发布，开源模型与闭源模型的实用差距在持续缩小。下周见。