Knowledge VaultReading Workbench
Reading Detail

Agili 的 AIGC 周刊(Y26W15)

Agili 的 AIGC 周刊 · 2026-04-19
Open Original
archivedone

Snapshot Reader

Captured

本周 AI 圈信息密度极高。Anthropic 一口气发了新模型和设计工具,OpenAI 把 Codex 变成了全能开发智能体,开源阵营的 Qwen3.6 用 3B 激活参数打出了远超体量的成绩。与此同时,"你不再是写代码的人,你是管理 agent 的人"这个判断正在从观点变成日常。

资讯

Anthropic 发布 Claude Opus 4.7,编码与视觉全面升级

Claude Opus 4.7 是 Anthropic 本周最重的一手牌。相比 Opus 4.6,它在 SWE-bench Verified 上提升约 7 个百分点至 87.6%,SWE-bench Pro 更是跳到 64.3%。新增的 xhigh 推理等级现已成为 Claude Code 的默认设置。视觉方面,支持长边 2576 像素的图片输入,是此前的三倍多,对截图密集的 computer use 场景帮助很大。

更值得关注的是效率变化:虽然新 tokenizer 会让同一段文本多消耗最多 35% 的 token,但整体推理效率大幅提升,实际 token 用量反而下降了约 50%。价格维持在每百万 token 输入 5 美元、输出 25 美元不变。Cursor 内部基准从 58% 跳到 70%,Notion 内部 eval 也获得 14% 提升——这些来自实际客户的数据比排行榜更能说明问题。

Claude Design:设计圈迎来自己的 Claude Code 时刻

紧随模型发布,Anthropic 推出了 Claude Design。它的定位并非传统设计软件的 AI 增强版,而是一个以自然语言驱动的原型生成工具:用自然语言生成交互原型、演示文稿和单页说明,输出的是可运行的 React 代码而非静态设计稿。支持从品牌资料和代码库中提取设计系统,能直接导出为 PDF、PPTX、HTML,或流转到 Claude Code 做工程实现。

宝玉的实测显示,三轮对话就能产出一个可交互的 Mac App 原型。Figma 股价在发布后明显下跌,市场对设计工具领域的竞争格局产生了新的预期。

OpenAI Codex 升级为全栈开发智能体

Codex 不再只是写代码的助手。本次更新加入了后台 computer use,能在桌面应用中点击和操作;内置浏览器可直接在网页上迭代前端;新增 90 多个插件覆盖 JIRA、CI、代码评审和基础设施工具;还能结合 gpt-image-1.5 生成和修改图片。更关键的是,它有了记忆能力——可以复用历史线程、安排未来任务、根据上下文主动建议待办。OpenAI 正在将 Codex 的定位从编码辅助工具扩展为覆盖更多开发环节的综合平台。

Pull Request 会消亡吗?

Latent Space 的一篇文章引发热议:GitHub 历史上首次允许开源仓库禁用 Pull Request。Pete Steinberger 等人已经在实践"Prompt Request"替代 PR——不提交代码而是提交 prompt,维护者修改 prompt 比审查代码更高效,还能减少恶意代码混入。如果代码审查死了,PR 也死了,Git 本身还能活多久?

Notion 的 Agent 之路:五次重建与 Software Factory 愿景

Latent Space 对 Notion AI 团队的深度访谈揭示了一段漫长的 agent 建设历史。Notion 从 2022 年就开始尝试 agent,经历了四五次推倒重来,直到 Sonnet 3.6/3.7 才真正跑通。现在他们正在推进"Software Factory"——让一组 agent 自动完成 spec、编码、测试、调试、审查和部署的完整闭环。Sarah Sachs 透露,Notion 内部设有专门的"Model Behavior Engineer"岗位,全职负责 eval 编写和模型行为分析。

开发者的角色正在转变

Every 的周报总结得很直白:"You’re the Manager Now。“Claude Code 桌面端改版加入会话侧栏和并行 agent 管理,编码界面正从"写代码"转向"管理多个 agent”。Every 增长负责人 Austin Tedesco 分享了一个实用技巧:让 Claude Code 提交变更前自评信心分(1-100),低于 90 就继续优化。团队技术负责人三月单月消耗了 220 万 Claude Code token,agentic workflow 已经进入高强度日常化阶段。

模型

Qwen3.6-35B-A3B:3B 激活参数的 agentic 编码利器

Qwen3.6-35B-A3B 是一款 35B 总参数、仅 3B 激活参数的稀疏 MoE 模型。它在 SWE-bench、Terminal-Bench 等编码基准上较前代有明显提升,同时支持 thinking/non-thinking 双模式和原生多模态。Red Hat 已经发布了 NVFP4 量化版本,社区也在用 llama.cpp 本地跑通了完整的 agent 栈。对预算有限又想跑本地 agent 的开发者来说,这是一个值得关注的方案。

Gemini 3.1 Flash TTS:可控性拉满的语音生成

Google 发布了 Gemini 3.1 Flash TTS,在 Artificial Analysis 的 TTS 排行榜上拿到 1211 Elo、排名第二。它的核心卖点是 Audio Tags——开发者可以在文本中直接嵌入自然语言指令来控制语音风格、语速和节奏,还支持原生多说话人对话和 70 多种语言。所有生成音频都带有 SynthID 水印。对需要构建语音应用的团队,这个模型在可控性和多语言覆盖上都走在前列。

Gemini Robotics-ER 1.6 与波士顿动力的工业实践

Gemini Robotics-ER 1.6 专攻机器人具身推理,新增了工业仪表读数能力——可识别圆形压力表、液位指示器和数字读数设备。波士顿动力已将该模型集成到 Spot 机器狗中,用于工业设施巡检中的泄漏识别、仪表读取和危险判断。这不再是实验室 demo,而是面向开发者开放的 API 级产品。

工具

Claude Code 桌面端重设计:为并行 agent 而生

Anthropic 对 Claude Code 桌面端做了一次面向并行工作流的全面重设计。新增的会话侧栏将所有活跃和历史会话集中展示,支持按状态、项目或环境筛选,PR 合并后会话自动归档。Side Chat(⌘+; / Ctrl+;)可以在不污染主线程上下文的前提下分支提问。应用内新增了集成终端、文件编辑器和重构后的 diff 查看器,所有面板均支持拖拽排列。桌面端现已与 CLI 插件完全对齐,SSH 支持也扩展到了 Mac。三种视图模式——Verbose、Normal、Summary——让你自由调节信息密度。整体设计思路很明确:桌面端正从单一编码界面转向多 agent 并行调度的工作台。

Claude Code Routines:定时任务与自动化工作流

Anthropic 推出了 Claude Code Routines(研究预览),让你把 Claude Code 任务配置一次、反复运行。Routine 支持三种触发方式:定时调度(每小时、每晚或每周)、API 调用(每个 routine 有独立端点和 auth token)、以及 GitHub Webhook(按仓库事件自动创建会话)。典型用法包括"每晚 2 点从 Linear 拉 top bug 并开 draft PR"、部署后自动冒烟测试、以及对每个新 PR 运行团队自定义的安全与性能检查清单。Routine 在云端执行,不依赖本地机器。Pro 用户每天 5 个,Max 15 个,Team/Enterprise 25 个,超出部分按额外用量计费。

Claude Code 会话管理指南:100 万 token 上下文怎么用

Anthropic 发布了一份详细的会话管理最佳实践。文章围绕 100 万 token 上下文窗口,系统梳理了五种操作:继续当前会话、用 /rewind(双击 Esc)回退到之前的消息重新提示、用 /compact 压缩上下文(可附加指令指定保留重点)、用 /clear 开启全新会话、以及将中间产出量大但只需结论的任务交给 subagent。核心洞察是"context rot"——随着上下文增长,注意力分散导致模型性能下降——这意味着主动管理上下文比被动等待自动压缩效果好得多。尤其值得注意的是,自动压缩往往发生在模型最"疲惫"的时刻,容易丢失关键信息,因此官方建议在上下文膨胀前就主动 /compact 并说明下一步方向。

Devin 入驻 Windsurf 2.0:本地+云端 agent 协作

Cognition AI 把 Devin 集成到了 Windsurf 2.0。工作流很清晰:在 Windsurf 本地做规划和原型,一键把实现任务发给 Devin,它在独立环境中执行,完成后开 PR,你在 Windsurf 里审查。本地 agent 负责即时交互,云端 agent 负责后台并行执行,两者通过 PR 流程衔接。

GitHub Secure Code Game 第四季:学习 AI Agent 安全

GitHub Secure Code Game 第四季聚焦 agentic AI 安全。玩家将操控一个名为 ProdBot 的故意设置漏洞的 AI 助手,通过自然语言尝试让它泄露不该暴露的秘密。五个关卡对应 agent 能力的逐级扩展:bash 命令执行、模拟网页浏览、MCP 服务器连接、组织级技能与持久化记忆、以及六个专业 agent 协同的多智能体环境——每增加一层自主性都引入新的攻击面。游戏灵感部分来自 OpenClaw 的真实漏洞 CVE-2026-25253(“ClawBleed”,CVSS 8.8)。无需 AI 或编码经验,全程在 GitHub Codespaces 中免费运行,已有超过 10,000 名开发者参与过此系列。

结束语

这一周的主题可以用一个词概括:并行。模型在并行进化——Opus 4.7、Codex、Qwen3.6 几乎同时落地;工具在并行扩展——从编码到设计到语音到机器人;而开发者的工作方式也在向并行管理多个 agent 转变。Notion 的 Sarah Sachs 说得好:每个软件工程师都在经历管理者曾经经历的身份危机——写代码的能力不再是核心,委派和上下文切换才是。

下周见。