Knowledge Vault

Snapshot Reader

Captured

本周 AI 圈信息密度极高。Anthropic 一口气发了新模型和设计工具，OpenAI 把 Codex 变成了全能开发智能体，开源阵营的 Qwen3.6 用 3B 激活参数打出了远超体量的成绩。与此同时，"你不再是写代码的人，你是管理 agent 的人"这个判断正在从观点变成日常。

资讯

Anthropic 发布 Claude Opus 4.7，编码与视觉全面升级

Claude Opus 4.7 是 Anthropic 本周最重的一手牌。相比 Opus 4.6，它在 SWE-bench Verified 上提升约 7 个百分点至 87.6%，SWE-bench Pro 更是跳到 64.3%。新增的 xhigh 推理等级现已成为 Claude Code 的默认设置。视觉方面，支持长边 2576 像素的图片输入，是此前的三倍多，对截图密集的 computer use 场景帮助很大。

更值得关注的是效率变化：虽然新 tokenizer 会让同一段文本多消耗最多 35% 的 token，但整体推理效率大幅提升，实际 token 用量反而下降了约 50%。价格维持在每百万 token 输入 5 美元、输出 25 美元不变。Cursor 内部基准从 58% 跳到 70%，Notion 内部 eval 也获得 14% 提升——这些来自实际客户的数据比排行榜更能说明问题。

Claude Design：设计圈迎来自己的 Claude Code 时刻

紧随模型发布，Anthropic 推出了 Claude Design。它的定位并非传统设计软件的 AI 增强版，而是一个以自然语言驱动的原型生成工具：用自然语言生成交互原型、演示文稿和单页说明，输出的是可运行的 React 代码而非静态设计稿。支持从品牌资料和代码库中提取设计系统，能直接导出为 PDF、PPTX、HTML，或流转到 Claude Code 做工程实现。

宝玉的实测显示，三轮对话就能产出一个可交互的 Mac App 原型。Figma 股价在发布后明显下跌，市场对设计工具领域的竞争格局产生了新的预期。

OpenAI Codex 升级为全栈开发智能体

Codex 不再只是写代码的助手。本次更新加入了后台 computer use，能在桌面应用中点击和操作；内置浏览器可直接在网页上迭代前端；新增 90 多个插件覆盖 JIRA、CI、代码评审和基础设施工具；还能结合 gpt-image-1.5 生成和修改图片。更关键的是，它有了记忆能力——可以复用历史线程、安排未来任务、根据上下文主动建议待办。OpenAI 正在将 Codex 的定位从编码辅助工具扩展为覆盖更多开发环节的综合平台。

Pull Request 会消亡吗？

Latent Space 的一篇文章引发热议：GitHub 历史上首次允许开源仓库禁用 Pull Request。Pete Steinberger 等人已经在实践"Prompt Request"替代 PR——不提交代码而是提交 prompt，维护者修改 prompt 比审查代码更高效，还能减少恶意代码混入。如果代码审查死了，PR 也死了，Git 本身还能活多久？

Notion 的 Agent 之路：五次重建与 Software Factory 愿景

Latent Space 对 Notion AI 团队的深度访谈揭示了一段漫长的 agent 建设历史。Notion 从 2022 年就开始尝试 agent，经历了四五次推倒重来，直到 Sonnet 3.6/3.7 才真正跑通。现在他们正在推进"Software Factory"——让一组 agent 自动完成 spec、编码、测试、调试、审查和部署的完整闭环。Sarah Sachs 透露，Notion 内部设有专门的"Model Behavior Engineer"岗位，全职负责 eval 编写和模型行为分析。

开发者的角色正在转变

Every 的周报总结得很直白："You’re the Manager Now。“Claude Code 桌面端改版加入会话侧栏和并行 agent 管理，编码界面正从"写代码"转向"管理多个 agent”。Every 增长负责人 Austin Tedesco 分享了一个实用技巧：让 Claude Code 提交变更前自评信心分（1-100），低于 90 就继续优化。团队技术负责人三月单月消耗了 220 万 Claude Code token，agentic workflow 已经进入高强度日常化阶段。

模型

Qwen3.6-35B-A3B：3B 激活参数的 agentic 编码利器

Qwen3.6-35B-A3B 是一款 35B 总参数、仅 3B 激活参数的稀疏 MoE 模型。它在 SWE-bench、Terminal-Bench 等编码基准上较前代有明显提升，同时支持 thinking/non-thinking 双模式和原生多模态。Red Hat 已经发布了 NVFP4 量化版本，社区也在用 llama.cpp 本地跑通了完整的 agent 栈。对预算有限又想跑本地 agent 的开发者来说，这是一个值得关注的方案。

Gemini 3.1 Flash TTS：可控性拉满的语音生成

Google 发布了 Gemini 3.1 Flash TTS，在 Artificial Analysis 的 TTS 排行榜上拿到 1211 Elo、排名第二。它的核心卖点是 Audio Tags——开发者可以在文本中直接嵌入自然语言指令来控制语音风格、语速和节奏，还支持原生多说话人对话和 70 多种语言。所有生成音频都带有 SynthID 水印。对需要构建语音应用的团队，这个模型在可控性和多语言覆盖上都走在前列。

Gemini Robotics-ER 1.6 与波士顿动力的工业实践

Gemini Robotics-ER 1.6 专攻机器人具身推理，新增了工业仪表读数能力——可识别圆形压力表、液位指示器和数字读数设备。波士顿动力已将该模型集成到 Spot 机器狗中，用于工业设施巡检中的泄漏识别、仪表读取和危险判断。这不再是实验室 demo，而是面向开发者开放的 API 级产品。

工具

Claude Code 桌面端重设计：为并行 agent 而生

Anthropic 对 Claude Code 桌面端做了一次面向并行工作流的全面重设计。新增的会话侧栏将所有活跃和历史会话集中展示，支持按状态、项目或环境筛选，PR 合并后会话自动归档。Side Chat（⌘+; / Ctrl+;）可以在不污染主线程上下文的前提下分支提问。应用内新增了集成终端、文件编辑器和重构后的 diff 查看器，所有面板均支持拖拽排列。桌面端现已与 CLI 插件完全对齐，SSH 支持也扩展到了 Mac。三种视图模式——Verbose、Normal、Summary——让你自由调节信息密度。整体设计思路很明确：桌面端正从单一编码界面转向多 agent 并行调度的工作台。

Claude Code Routines：定时任务与自动化工作流

Anthropic 推出了 Claude Code Routines（研究预览），让你把 Claude Code 任务配置一次、反复运行。Routine 支持三种触发方式：定时调度（每小时、每晚或每周）、API 调用（每个 routine 有独立端点和 auth token）、以及 GitHub Webhook（按仓库事件自动创建会话）。典型用法包括"每晚 2 点从 Linear 拉 top bug 并开 draft PR"、部署后自动冒烟测试、以及对每个新 PR 运行团队自定义的安全与性能检查清单。Routine 在云端执行，不依赖本地机器。Pro 用户每天 5 个，Max 15 个，Team/Enterprise 25 个，超出部分按额外用量计费。

Claude Code 会话管理指南：100 万 token 上下文怎么用

Anthropic 发布了一份详细的会话管理最佳实践。文章围绕 100 万 token 上下文窗口，系统梳理了五种操作：继续当前会话、用 /rewind（双击 Esc）回退到之前的消息重新提示、用 /compact 压缩上下文（可附加指令指定保留重点）、用 /clear 开启全新会话、以及将中间产出量大但只需结论的任务交给 subagent。核心洞察是"context rot"——随着上下文增长，注意力分散导致模型性能下降——这意味着主动管理上下文比被动等待自动压缩效果好得多。尤其值得注意的是，自动压缩往往发生在模型最"疲惫"的时刻，容易丢失关键信息，因此官方建议在上下文膨胀前就主动 /compact 并说明下一步方向。

Devin 入驻 Windsurf 2.0：本地+云端 agent 协作

Cognition AI 把 Devin 集成到了 Windsurf 2.0。工作流很清晰：在 Windsurf 本地做规划和原型，一键把实现任务发给 Devin，它在独立环境中执行，完成后开 PR，你在 Windsurf 里审查。本地 agent 负责即时交互，云端 agent 负责后台并行执行，两者通过 PR 流程衔接。

GitHub Secure Code Game 第四季：学习 AI Agent 安全

GitHub Secure Code Game 第四季聚焦 agentic AI 安全。玩家将操控一个名为 ProdBot 的故意设置漏洞的 AI 助手，通过自然语言尝试让它泄露不该暴露的秘密。五个关卡对应 agent 能力的逐级扩展：bash 命令执行、模拟网页浏览、MCP 服务器连接、组织级技能与持久化记忆、以及六个专业 agent 协同的多智能体环境——每增加一层自主性都引入新的攻击面。游戏灵感部分来自 OpenClaw 的真实漏洞 CVE-2026-25253（“ClawBleed”，CVSS 8.8）。无需 AI 或编码经验，全程在 GitHub Codespaces 中免费运行，已有超过 10,000 名开发者参与过此系列。

结束语

这一周的主题可以用一个词概括：并行。模型在并行进化——Opus 4.7、Codex、Qwen3.6 几乎同时落地；工具在并行扩展——从编码到设计到语音到机器人；而开发者的工作方式也在向并行管理多个 agent 转变。Notion 的 Sarah Sachs 说得好：每个软件工程师都在经历管理者曾经经历的身份危机——写代码的能力不再是核心，委派和上下文切换才是。

下周见。