Knowledge Vault

Snapshot Reader

Captured

本周最大的新闻是中国开源模型的集体爆发——GLM-5、MiniMax M2.5、Qwen-Image-2.0 接连发布，开源阵营正式进入 Opus 级能力区间。Anthropic 完成 300 亿美元 G 轮融资，估值 3800 亿，创下 AI 领域单轮融资纪录。与此同时，GitHub 推出 Agentic Workflows、OpenAI 发布长时运行 Agent 三件套，编码 Agent 正在从"辅助工具"变成"基础设施"。

模型发布

GLM-5 发布：744B 参数开源模型登顶

智谱 AI 发布 GLM-5，744B 总参数、40B 激活，预训练数据从 23T 扩展到 28.5T tokens。关键技术点是集成了 DeepSeek Sparse Attention（DSA），在保持 200K 上下文能力的同时大幅降低部署成本。

在 Artificial Analysis 的 Intelligence Index 上，GLM-5 拿下开源模型榜首（得分 50），在 GDPval-AA 白领工作基准上排名仅次于 Opus 4.6 和 GPT-5.2。幻觉控制方面表现优异：AA-Omniscience 测试得分 -1（越低越好，表示几乎无幻觉），是所有测试模型中最优的。

MIT 许可证、vLLM/SGLang 即日支持、BF16 权重约 1.5TB。如果你在跑本地推理，这是目前开源阵营能拿到的最强底座。

🔗 Z.ai 官方博客

GPT-5.3-Codex-Spark：1000 tok/s 的实时编码模型

OpenAI 和 Cerebras 合作推出 GPT-5.3-Codex-Spark，主打超快推理速度：1000+ tokens/秒，响应延迟压到毫秒级。

这不是性能怪兽，而是交互范式的改变。当模型反馈快到接近打字速度，人机协作的节奏会完全不同——你不再需要"等 AI 想完"，而是可以像对话一样实时迭代。

目前仅限 Pro 用户，API 也有配额限制。但如果你在做交互式编码工具，这是值得关注的方向。

🔗 OpenAI 官方公告

Gemini 3 Deep Think：科研级推理的重大升级

Google DeepMind 发布 Gemini 3 Deep Think 的重大更新，专门面向科研场景。

几个硬数据：ARC-AGI-2 达到 84.6%（由 ARC Prize Foundation 验证），Codeforces Elo 3455，IMO 金牌级别。更值得关注的是化学和物理奥赛也达到金牌水平——这不再只是"数学很强"的模型。

实际应用案例：Rutgers 大学数学家用它审查技术论文，发现了人类同行评审漏掉的逻辑缺陷；Duke 大学材料科学实验室用它优化晶体生长配方，成功合成了 100μm+ 的薄膜。

首次通过 Gemini API 向研究者开放，但需要申请早期访问。

🔗 DeepMind 博客

Qwen-Image-2.0：7B 统一生成编辑模型

阿里通义千问发布 Qwen-Image-2.0，7B 参数，同时支持图像生成和编辑，原生 2K 分辨率，最长支持 1K token 的提示词。

几个亮点：文字渲染能力很强，能生成带复杂排版的海报和信息图；多面板漫画生成时角色一致性保持得不错；从 20B 压缩到 7B，本地部署门槛大幅降低。

API 已在阿里云上线，Demo 在 Qwen Chat 可试用。权重暂未开放，但按 Qwen 团队的惯例，开源只是时间问题。

🔗 Qwen 官方博客

MiniMax M2.5：为多 Agent 协作设计的编码模型

MiniMax M2.5 的定位很明确：不是单打独斗的最强模型，而是专门为多 Agent 协作优化的"团队选手"。

SWE-Bench Pro 55.4%，超过 Opus 4.6 的 53.4%；Multi-SWE-Bench 51.3%，同样领先。推理速度 100 tok/s，价格 $0.06/M blended——限时免费。10B 激活参数，是同级别最小的模型。

在 Cline 的测试中，M2.5 在 subagent 场景下表现尤其出色：上下文切换干净，不会抢其他 Agent 的活，知道什么时候该交接。如果你在做多 Agent 编排，值得试试。

🔗 Cline 博客

Claude Opus 4.6：早期客户的实战反馈

Anthropic 发布了一篇幕后文章，分享 Harvey、bolt.new、Shopify、Lovable 四家公司在 Opus 4.6 早期测试中的真实体验。

Harvey 的法律基准 BigLaw Bench 首次突破 90%（90.2%），40% 的任务拿到满分。bolt.new 有个瀑布图 bug 之前用老模型试了 5 次都失败，Opus 4.6 一次搞定——它发现了 8 个并行 HubSpot API 调用绕过了限流保护。

Shopify 工程师的反馈最有意思：“我发现自己在对 AI 说’你说得对’，而不是反过来。”

🔗 Claude 官方博客

工具更新

GitHub Agentic Workflows：用 Markdown 编写智能工作流

GitHub Agentic Workflows 是 GitHub Next 推出的技术预览：用 Markdown 描述你想要的结果，在 GitHub Actions 中用编码 Agent 执行。

想象一下早上打开仓库：Issues 自动分类打标、CI 失败自动调查并提 PR 修复、文档已经跟代码同步更新、两个改进测试的 PR 等着你审查。这些以前要写复杂的 YAML 配置，现在用自然语言描述意图就行。

支持 Copilot CLI、Claude Code、OpenAI Codex 作为执行引擎。默认只读权限，写操作需要显式审批。安全沙箱、工具白名单、网络隔离都做了。

这是"Continuous AI"概念的落地：把 AI 集成到软件开发生命周期里，就像 CI/CD 一样成为基础设施的一部分。

🔗 GitHub 官方博客

OpenAI Skills + Shell + Compaction：长时运行 Agent 三件套

OpenAI 发布了三个新原语，专门解决长时运行 Agent 的痛点：

Skills：可复用的指令包，装载到容器里让 Agent 按流程执行。相当于给 Agent 一本可随时查阅的操作手册，避免在系统提示里塞一堆规则。

Shell：OpenAI 托管的容器环境，有网络访问，能装依赖、跑脚本、写输出。Agent 终于有了真正的"执行环境"。

Compaction：服务端自动压缩上下文，长对话不再需要手动管理 context window。

Glean 的实战数据：用 Skills 把 Salesforce 相关任务的准确率从 73% 提升到 85%，首字延迟降低 18.1%。最佳实践是把负例和边界情况写进 Skill 描述里，避免误触发。

🔗 OpenAI 开发者博客

Cline CLI 2.0：从 IDE 侧边栏到终端

Cline CLI 2.0 把完整的编码 Agent 带到了终端。

核心卖点是并行：开三个 tmux 窗格，一个重构数据库、一个更新文档、一个跑迁移脚本。每个实例完全隔离，各干各的。在 IDE 里做这件事需要开多个窗口、管理多个扩展实例，没人真的会这么干。

-y 参数开启无人值守模式，支持 stdin/stdout 管道，可以塞进 CI/CD 流水线。--acp 参数让它兼容 JetBrains、Zed、Neovim、Emacs——你的 Agent 不再被锁死在某个编辑器里。

Apache 2.0 开源，npm install -g cline 即装即用。MiniMax M2.5 和 Kimi K2.5 限时免费，零门槛试用。

🔗 Cline 官方博客

Stripe Minions：每周 1000+ PR 的无人值守编码 Agent

Stripe 公开了内部的 Minions 系统：每周超过 1000 个合并的 PR 完全由 Agent 从头到尾完成，人类只负责 Review。

Stripe 的场景很特殊：数亿行代码、Ruby + Sorbet 技术栈、承载万亿美元级支付。Minions 的设计思路是"创意交给 LLM，执行交给确定性工具链"。

几个技术细节：基于 Block 的开源 Agent goose 做了深度定制；接入 MCP 协议，提供 400+ 内部工具；通过 Slack 入口触发，可以读取整个讨论线程作为上下文；CI 最多跑两轮，强调本地能发现的问题不拖到 CI。

这是大厂级 Agent 落地的珍贵案例研究。

🔗 Stripe Dev 博客

Devin Autofix：写代码→审查→修复→合并的闭环

Cognition 给 Devin 加了 Autofix 功能：当 Linter 报错、CI 挂了、安全扫描发现问题，或者 Review 工具留了评论，Devin 可以自动修复并更新 PR。

这是"Agent 闭环"的关键一步。以前 Agent 写完代码，人要手动把 Review 意见复制粘贴回去让它改。现在整个链路打通了：写代码 → 被审查 → 发现问题 → 自动修复 → CI 绿了 → 等人类拍板。

人类的工作收窄到架构决策、产品方向、需要领域知识的边界情况。机械性的修修补补，Agent 自己搞定。

🔗 Cognition AI 博客

SQLite-Vector：把向量检索带进 SQLite

SQLite-Vector 是一个跨平台扩展，让 SQLite 支持向量相似度检索。C 实现 + SIMD 加速，默认内存占用约 30MB，支持 Float32/16、BFloat16、Int8、1Bit 等多种向量类型。

适用场景是端侧 AI：移动 App、桌面应用、边缘设备。数据留在本地，不需要云端向量数据库。预编译二进制覆盖 Linux/macOS/Windows/Android/iOS，还有 WASM、Swift、Python 绑定。

注意授权是 Elastic License 2.0，非生产环境随便用，生产或托管服务需要商业授权。

🔗 GitHub 仓库

Nowledge Mem：跨 Agent 的本地记忆管理器

Nowledge Mem 解决一个很实际的问题：你用 Claude Code 聊了一堆上下文，换到 Cursor 又要重新解释一遍。

它是一个本地优先的记忆管理器，支持 MCP 协议，可以跨 Codex、Claude Code、Cursor 等工具共享上下文。聊天记录、笔记、文档都可以提炼成可重用的记忆，用图结构可视化知识关联。

所有计算和存储都在本地，不上传云端。如果你同时用多个 AI 工具，这能省掉不少重复沟通的时间。

🔗 Nowledge Mem

Cua：计算机使用 Agent 平台

Cua 提供完整的计算机使用 Agent 基础设施：云端沙箱（Linux/Windows/macOS）、VLM 推理服务、轨迹记录、数据集生成、基准测试。

核心卖点是一站式：不用自己搭沙箱、不用自己对接多个 VLM 提供商、不用自己写录制回放逻辑。按积分计费，免费层提供 10 积分起步。

Agent SDK 和 Computer SDK 在 GitHub 开源（MIT 许可），如果只想用基础能力可以自己部署。

🔗 Cua 官网

MiniMax Agent 平台：AI 专家生态

MiniMax Agent 推出了一个专家 Agent 平台，涵盖 Landing Page 生成、PPT 制作、Excel 处理、行业研究、销售情报等多个领域。

有意思的是"对冲基金专家团队"：18 个 AI 专家的多 Agent 系统，包括巴菲特、芒格等投资大师的风格模拟，加上估值、情绪、技术分析等专业分析师角色，协作完成投资分析。

作为 M2.5 模型的配套产品，可以理解为 MiniMax 在展示"Agent 能干什么"的可能性边界。

🔗 MiniMax Agent 专家平台

行业资讯

Dario Amodei 深度访谈：AI 经济学与"天才之国"

Anthropic CEO Dario Amodei 做了一期三小时长访谈，几个关键数据：

RL scaling 呈现与预训练相同的对数线性规律，2017 年提出的"大算力团块假说"至今成立
AI 编程当前带来约 15-20% 的总生产力提升，半年前是 5%，在加速
1-3 年内有 50% 概率出现"天才之国"（数据中心里的诺奖级 AI），10 年内 90% 确信
AI 公司天然盈利：50% 算力训练、50% 推理，推理毛利率超 50%。亏损来自需求预测偏差

关于中美竞争：芯片和数据中心不应卖给中国，但疾病治疗药物可以。“我希望在未来的谈判中，古典自由民主制度握着更强的牌。”

🔗 Baoyu.io 分析 | 原始视频

Anthropic 完成 300 亿美元 G 轮融资

Anthropic 宣布完成 300 亿美元 G 轮融资，投后估值 3800 亿美元，创下 AI 领域单轮融资纪录。

几个数据点：年化收入 140 亿美元，其中 Claude Code 单产品贡献超 25 亿；企业客户年增长 300%；日活用户突破 5000 万。融资由 Lightspeed 领投，Google、Salesforce、Amazon 跟投。

资金用途：扩建数据中心、加速 Claude 5 研发、扩大企业销售团队。按 Dario 访谈的说法，AI 公司推理毛利率超 50%，这笔钱主要是为了抢占算力。

🔗 Anthropic 官方公告

Opus 4.6 vs GPT-5.3 Codex：后基准测试时代的模型比较

Interconnects 发了一篇深度对比，核心观点是：基准测试分数已经失去了区分度，实际使用体验才是关键。

Codex 5.3 在复杂 bug 定位上略强，但 Opus 4.6 在日常任务上更"省心"——不需要给那么详细的指令，上下文理解更好。如果要推荐给没有编程经验的人，作者会选 Claude。

一个有趣的观察：两款模型都开始"忽略"队列里的次要指令，更适合处理单一、明确的问题，而不是一次塞一堆任务。

文章还回顾了 Gemini 3 Pro 发布时"Google 重回王座"的舆论——两个月后，它在编码 Agent 领域几乎没有存在感。

🔗 Interconnects 原文

Harness Problem：改变编辑工具让 15 个 LLM 编码能力提升 10 倍

这篇研究提出了一个叫 Hashline 的编辑工具。核心发现：同一个模型，换一个代码编辑接口，能力差异可以达到 10 倍。

最夸张的例子：Grok 在标准设置下 SWE-Bench 得分 6.7%，用 Hashline 达到 68.3%。作者把这叫做"Harness Problem"——我们可能一直在用错误的方式评估模型。

开源项目 oh-my-pi 可以复现这个结果。如果你在做 Agent 工程，这是必读材料。

🔗 原文

再过八个月的 Agents：从 1/4 代码到 9/10 代码

Crawshaw 写了一篇年度总结：去年 25% 的代码由 AI 写，现在是 90%。

几个关键变化：IDE 在变得不重要，Agent 在终端里跑得更好；前沿模型是必要的，省钱用小模型会拖累整体效率；Agent 开始能处理多日跨度的任务。

一线实践者的反思比理论分析更有价值。

🔗 原文

2026 编程巨变：Anthropic Agent 编程八大趋势

Anthropic 发布了一份趋势报告，八个预测的核心是：开发者正在从"写代码的人"变成"编排 Agent 写代码的人"。

几个数据点：开发者 60% 的工作用到 AI，但完全甩手的任务只有 0-20%；AI 辅助工作中 27% 是"如果没有 AI 就不会做"的新增工作；乐天让 Claude Code 在 1250 万行代码库里自主工作 7 小时完成了一个完整功能。

报告有替 Claude Code 打广告的成分，但数据值得参考。

🔗 Baoyu.io 解读

Gemini Deep Think 加速科学发现

DeepMind 发了两篇论文，详细介绍 Gemini Deep Think 在科研中的应用。

他们构建了一个叫 Aletheia 的数学研究代理，已经产出了几篇可发表的研究论文——包括一篇完全由 AI 自主完成、无人工干预的算术几何论文。

物理和计算机科学方面：解决了一个 10 年没人能证明的在线子模优化猜想（找到反例）；帮助理解机器学习优化中的"自适应惩罚"机制；扩展了 AI 令牌拍卖的启示原理。

他们提出了"AI 辅助数学分类法"，从 Level 0（练习级）到 Level 4（里程碑突破），目前声称达到 Level 2（可发表质量）。

🔗 DeepMind 博客

量化 Agent 编码评测中的基础设施噪声

Anthropic 工程团队发了一篇技术报告，揭示了一个被忽视的问题：基准测试分数差异可能来自 VM 配置，而不是模型能力。

在 Terminal-Bench 2.0 上，仅靠调整资源配置，同一个模型的分数差异可达 6 个百分点。原因是容器资源限制：严格限制会让瞬时内存峰值触发 OOM Kill，而宽松限制让模型可以尝试更重的依赖。

建议：排行榜上 3% 以内的差异要打问号，除非评测配置完全对齐。评测时应该指定"保底资源"和"硬限制"两个参数，而不是单一的固定值。

🔗 Anthropic Engineering

别再用提示词去 AI 味了

Baoyu 写了一篇实操指南，核心观点：所有"去 AI 味提示词"都是错的，你需要的是一份持续更新的 Writing Style Skill。

提示词的问题：所有人用同一套，产出变成 AI 味 2.0；一次性的，换个场景又打回原形；你只说了"不要什么"，没告诉 AI 你要什么风格。

解决方案：用自己写的 3-5 篇文章让 AI 分析你的风格，生成 Skill；让 AI 按 Skill 写，你手动改；把修改反馈回 Skill，迭代优化。

作者自己的 Skill 有 150 多行，迭代了几个月。到第十次左右，AI 写的比作者本人还"像作者"。

🔗 Baoyu.io

OpenAI 从使命中删除"安全"一词

OpenAI 重组为公益公司后，使命声明从"safely beneficial"改成了"beneficial"。The Conversation 的分析认为这反映了公司治理的根本变化。

🔗 The Conversation 原文

既然 AI 越来越聪明，学提示词是否浪费时间？

Baoyu 的观点：提示词工程的本质不是"骗 AI"，而是需求定义和任务拆解。AI 越强，这些能力越值钱，因为你能用它做的事情更多了。