Knowledge Vault

Snapshot Reader

Captured

本周 AI 圈最大的看点是 Agent 开始全面平台化和基建化。Anthropic 为托管 Agent 增加了“做梦”和自我修正机制，而 JetBrains 和 Airbyte 等大厂也纷纷推出面向 Agent 的开发与数据基建。同时，OpenAI 更新了实时语音模型，进一步拓宽了多模态交互的边界。

资讯

Anthropic 扩大算力规模并提高 Claude 限额 Anthropic 宣布提高 Claude Code 和 Claude API 的使用限制。背后是他们与 SpaceX 达成的算力合作协议，将使用 SpaceX Colossus 1 数据中心超过 22 万块 NVIDIA GPU 的计算容量。这表明推理算力供给已成为 AI 产品竞争的关键约束。

深入观察中国 AI 实验室 Nathan Lambert 记录了走访多家中国 AI 团队后的发现。他指出，中国实验室在开源模型、模型构建和 Agent 工作流上具备极强的工程执行导向。年轻研究者的深度参与和对技术主权的重视，是他们保持快速追赶节奏的核心驱动力。

Chrome 浏览器静默安装本地大模型引争议 安全研究人员发现，Chrome 会在符合硬件条件的用户设备上，静默下载约 4GB 的 Gemini Nano 模型文件。这种跨越用户预期的分发机制，引发了关于隐私同意、本地磁盘和网络带宽控制权的广泛讨论。

Meta 面临新一轮 AI 训练版权诉讼 五家出版商和知名作家起诉 Meta，指控其未经授权使用大量受版权保护的书籍训练 Llama 模型。诉状声称 Meta 高层曾直接鼓励这些行为。这起诉讼可能深刻影响大模型公司未来的数据授权和训练策略。

模型

OpenAI 发布 GPT-Realtime-2 等实时语音模型 OpenAI 在 API 中推出了三款新模型：具备 GPT-5 级别推理能力的 GPT-Realtime-2、支持 70 多种语言输入的 GPT-Realtime-Translate，以及低延迟转写模型 GPT-Realtime-Whisper。语音交互正从简单的低延迟问答，走向具备工具调用和推理能力的语音 Agent。

GLM-5V-Turbo：面向多模态 Agent 的原生基础模型 GLM-V 团队发布的这篇论文，目标是构建能处理异构上下文（如网页、文档、视频和 GUI）的多模态模型。论文把视觉能力放到推理、规划和工具使用流程中，而不是只作为语言模型的附加输入，而是多模态 Agent 感知和行动的核心组件。

Google 推出 Gemma 4 MTP 提升推理速度 Google 为 Gemma 4 系列发布了多 Token 预测（MTP）草稿器。在不降低输出质量的前提下，通过并行验证预测序列，Gemma 4 的推理速度最高可提升约 3 倍。这对于本地 Agent 工作流和语音应用的延迟优化有直接帮助。

SubQ：支持 1200 万 Token 的长上下文模型 SubQ 宣称通过亚二次复杂度的稀疏注意力机制，能处理高达 1200 万 Token 的上下文任务。如果表现符合预期，这类模型将显著改变代码库级 Agent 和长期状态记忆的产品形态。

Runway Characters：从单图生成实时对话视频 Agent Runway 将视频生成技术推向了实时交互领域。系统能根据单张图片构建表情自然的视频角色，并以极低延迟参与语音对话。这一技术可用于虚拟客服、教育和游戏 NPC 场景。

Anthropic 解析模型激活以理解内部状态 Anthropic 发布的自然语言自编码器（NLA），能将 Claude 内部激活状态转化为人类可读的解释。这是模型可解释性研究的重要一步，已在内部用于安全测试，帮助捕捉模型隐藏的真实动机。

数学家分享使用 ChatGPT 5.5 Pro 进行研究的体验 顶尖数学家 Timothy Gowers 记录了前沿模型在一小时内协助产出近博士水平研究的过程。案例显示，LLM 的核心价值在于加速发现被忽略的证明路径和组合已有知识，而不是完全替代人类的严格验证。

工具

Claude Managed Agents 新增三项能力 Anthropic 为其托管 Agent 推出三项核心能力：用于长期经验提炼的 dreaming 机制、基于评分标准自我修正的 outcomes 功能，以及多 Agent 协同编排。Claude 平台正快速演进为可评估、可观测的生产级系统。

JetBrains Air：专为多 Agent 协同打造的开发环境 JetBrains 推出的这个新环境允许并行运行多个编程 Agent（如 Codex、Claude Agent）。它提供隔离执行、项目级可见性和原生代码审查支持，探索了人机协作编程的新边界。

Langfuse：开源的全栈 LLM 工程平台 Langfuse 整合了追踪、评估、提示词管理和指标监控等功能。它兼容市面主流模型和框架，适合用于生产环境中的观测和评估。

DeepSeek 4 Flash 发布针对 Mac 的本地推理引擎 由 antirez 开发的 ds4 项目，为 DeepSeek V4 Flash 打造了专用的 Apple Metal 推理引擎。项目针对长上下文、工具调用和缓存复用做了深度优化，提升了模型在端侧 Agent 工作流中的可用性。

Tilde.run：具备文件版本控制的 Agent 沙箱 Tilde.run 提供了一个事务化运行环境。Agent 在执行任务时对文件的每次修改都可被审计或回滚，解决了自治 Agent 操作真实生产数据时的核心安全痛点。

Mozilla 利用 AI 发现数百个 Firefox 漏洞 Mozilla 分享了使用 Claude 加固浏览器的实践。Firefox 150 中修复了 271 个由 Claude Mythos Preview 发现的问题；2026 年 4 月 Firefox 总计修复 423 个安全 bug。

AlphaEvolve 将 Gemini 驱动扩展至科研和基础设施 Google DeepMind 的 AlphaEvolve 开始应用于基因组学纠错、电网优化及量子物理研究等多个领域，将生成式 AI 结合自动评估，用于解决复杂的科学和工程问题。

Ardent：在真实数据库副本上安全测试 AI 代码 Ardent 能在数秒内为编程 Agent 克隆独立的 Postgres 数据库。它让 Agent 能在接近真实生产的环境中安全地进行数据清洗、迁移和变更验证。

Agent Skills：用工作流规范 AI 编程流程 该项目通过可复用的 Markdown 文件，为 AI Agent 注入资深工程师的工作流程。它要求 Agent 在写代码前完成需求定义、规划，并进行严格的测试和审查。

AGENTS.md：系统性维护 Agent 的项目上下文 这篇文章提供了一套为 AI 编程助手管理 AGENTS.md 的最佳实践。通过渐进披露原则，开发者可以有效控制上下文预算，避免产生相互冲突的规则泥潭。

Airbyte Agents：为 AI 提供跨系统的数据层 Airbyte 发布了统一数据层工具，帮助 Agent 预索引多数据源信息。Agent 可以更高效地在 Slack、Salesforce 等系统中检索数据，降低直接调用大量 API 带来的复杂度和成本。

如何更高效地审查 Agent 提交的代码 GitHub 分享了针对 AI 生成的 Pull Request 的审查建议。文章提醒开发者警惕“表面干净”的冗余代码，并建议优先检查持续集成（CI）配置、代码复用和核心业务逻辑。

Claude 提升跨 Office 应用协作能力 Claude 现在可以在 Excel、Word、PowerPoint 和 Outlook 间保持持续对话上下文。用户能流畅完成从邮件分拣、数据分析到幻灯片制作的闭环操作。

以上就是本期的全部内容。随着基础设施的完善，Agent 正在更深地融入我们的日常工作流中，期待下周能看到更多有趣的实践，下周见！

Agili 的 AIGC 周刊（Y26W18）

Snapshot Reader

资讯

模型

工具