Snapshot Reader
本周最大的新闻是 Anthropic 和 Google 同时发力:Claude Sonnet 4.6 的 OSWorld 得分飙升至 72.5%,Computer Use 接近人类水平;Gemini 3.1 Pro 在 ARC-AGI-2 上翻倍达到 77.1%。与此同时,llama.cpp 创始团队加入 Hugging Face 的消息让本地 AI 社区沸腾,Karpathy 则为这个正在爆发的 Agent 生态创造了一个新词:Claws。
模型
Claude Sonnet 4.6 是 Anthropic 迄今最强大的 Sonnet 模型。它提供了 100 万 token 的上下文窗口(测试版),在编码、长上下文推理和代理规划方面全面升级。Computer Use 能力的进步尤为惊人:在 OSWorld 基准测试中,模型执行真实软件任务(Chrome、VS Code 等)的得分从之前的 14.9% 跃升至 72.5%,接近人类水平。早期客户反馈显示,Databricks 发现它在企业文档问答上与 Opus 4.6 相当,Cursor 则观察到在长期任务和困难问题上的显著改进。定价与 Sonnet 4.5 保持一致,免费层也已升级为默认使用该模型。
Gemini 3.1 Pro 是 Google 对核心推理能力的重大升级。在 ARC-AGI-2 基准测试上,它的得分从 3 Pro 的 35% 左右翻倍至 77.1%。Google 展示了几个实用场景:从文本提示直接生成网站级 SVG 动画、构建国际空间站轨道可视化仪表盘、以及将文学主题转化为功能代码。该模型现已通过 Google AI Studio、Vertex AI、Gemini CLI 以及消费端的 Gemini 应用和 NotebookLM 提供预览访问。
Qwen3.5-397B-A17B 是阿里通义千问发布的开源多模态 Agent 模型。它采用混合架构,融合了线性注意力机制(Gated Delta Networks)和稀疏 MoE 系统——总参数量 3970 亿,但每次前向传播仅激活 170 亿参数。语言支持从 119 种扩展到 201 种,托管版 Qwen3.5-Plus 提供 100 万 token 上下文和官方内置工具。模型已在 HuggingFace 和 ModelScope 开放下载。
Step 3.5 Flash 是阶跃星辰发布的开源深度推理模型,定位在速度与质量之间的平衡点。它针对多步逻辑推理、代码生成和科学分析等任务优化,同时保持较高的推理速度。作为开源模型,开发者可以直接部署在自有基础设施上,对标 OpenAI 的 o1 系列和其他推理模型。
资讯
ggml.ai 加入 Hugging Face,这是本地 AI 推理生态的重大整合。llama.cpp 创始团队将继续全职领导和维护 ggml 和 llama.cpp 库,项目保持开源和社区驱动。未来的合作重点包括:与 transformers 库的无缝集成、更好的用户体验,以及简化普通用户部署本地模型的流程。这一举措确保了项目的长期可持续性,同时保留了开源社区的独立性。
OpenClaw 创始人 Peter Steinberger 加入 OpenAI。他的个人 Agent 项目在过去一个月引发轰动,而他的下一个目标是"构建一个连他妈妈都能用的 Agent"。OpenClaw 将转为基金会模式运营,保持开源和独立。Peter 将致力于将 Agent 执行任务和相互交互的功能集成到 OpenAI 的核心产品中。
Andrej Karpathy 定义了一个新术语:“Claw” 正在成为整个 OpenClaw 类 Agent 系统的通用名词。他在推文中写道:"就像 LLM agents 是 LLMs 之上的新层一样,Claws 现在是 LLM agents 之上的新层。"这类系统通常在个人硬件上运行,具备编排、调度、持久性和工具调用能力,默认在容器中运行。围绕这个概念,NanoClaw、zeroclaw、picoclaw 等项目正在涌现。
Anthropic 发布了一项基于数百万人机交互的实证研究,揭示用户如何授权 Agent 以及 Agent 何时主动暂停。关键发现:在最长运行会话中,Claude Code 的自主工作时间在三个月内从 25 分钟增长到 45 分钟以上;有经验的用户更多使用自动批准模式(从 20% 升至 40%+),但同时中断率也更高(从 5% 升至 9%)——反映了监督策略从逐项审查转向"放手让它跑、必要时介入"。在复杂任务上,Claude Code 主动暂停请求澄清的频率是人类中断它的两倍多。
a16z 的 Martin Casado 和 Sarah Wang 在 Latent Space 播客 深度解读了 AI 融资的新格局。核心论点:今天的融资回合实际上是算力合同的伪装,"融资 → 训练 → 发布 → 融资更多"的飞轮正在以周而非年的速度运转。Martin 提出一个令人震惊的可能性:前沿模型实验室可能超越建立在其之上的整个应用生态系统的支出能力——如果 Anthropic 每一轮都能融到 3 倍的资金,它可以扩展到比任何依赖它的公司都大。这实际上是应用于创业行业的 “bitter lesson”。
Taalas 发布了定制 ASIC 推理平台,首款产品是硬连线 Llama 3.1 8B,达到 17K tokens/sec——比当前最先进水平快近 10 倍。核心创新是完全专业化:为每个模型生产最优芯片,消除存储与计算的边界,在单个芯片上统一存储和计算。这个 24 人团队用 3000 万美元完成了首款产品,证明精确目标和严格专注可以实现蛮力无法做到的事情。
工具
Claude Web Search 动态过滤 让 Claude 在搜索时自动编写代码过滤结果,而不是把原始 HTML 全部塞进上下文。在 BrowseComp 和 DeepsearchQA 两个基准上,准确率平均提升 11%,输入 token 减少 24%。Quora 的 Poe 平台测试后表示:"模型表现得像一个真正的研究员,写 Python 来解析、过滤和交叉引用结果,而不是在上下文中推理原始 HTML。"该功能在 API 上默认开启。
Claude Code Desktop 更新 带来了开发工作流的闭环能力。现在你可以在桌面界面中启动 dev server 并实时预览 webapp,Claude 能看到 UI、读取控制台日志、捕获错误并持续迭代。推送前可以让 Claude 审查本地 diff,直接在界面中留下内联评论。对于 GitHub 托管的代码,还能监控 PR 状态,启用 auto-fix 自动修复 CI 失败,甚至启用 auto-merge 在所有检查通过后自动合并。会话现在可以跨设备无缝切换——从 CLI 到桌面应用再到手机。
Gemini 集成 Lyria 3,用户现在可以通过文本描述或上传图片创作 30 秒的定制音乐。相比之前版本,Lyria 3 可以自动生成歌词、提供更强的创作控制,并能创作更复杂的曲目结构。所有生成的曲目都嵌入 SynthID 水印。该功能向 18 岁以上用户开放,支持包括中文在内的多种语言。
Cord 是一个约 500 行 Python 代码的开源框架,核心创新是 spawn/fork 原语,让 Agent 在运行时决定任务结构而非由开发者预定义。spawn 创建的子 Agent 获得干净状态(只有明确依赖的结果),fork 创建的子 Agent 则继承所有已完成兄弟节点的上下文。Agent 可以创建 ask 节点向人类提问,人类成为协调树中的参与者而非观察者。
NTransformer 是一个开源项目,实现了在单张 RTX 3090 上运行 Llama 3.1 70B 模型。核心技术是 NVMe 到 GPU 的直接 DMA 读取,绕过 CPU 内存,相比传统 mmap 方式实现 83 倍加速。它采用三层自适应缓存架构(VRAM 驻留/固定 RAM/NVMe 回退),还支持基于余弦相似度的层跳过优化。项目以 BSD-2-Clause 许可开源,但需要进行系统级修改,包括 BIOS 设置和 NVIDIA 驱动补丁,请注意硬件风险。
一致性扩散语言模型(CDLM)是 Together AI 提出的新训练方法,针对扩散语言模型的两大低效问题:完全双向注意力导致无法使用 KV 缓存,以及高质量生成需要大量优化步骤。CDLM 通过块内时间一致性约束和分块因果掩码,在数学和编码任务上实现高达 14.5 倍的延迟加速,同时保持有竞争力的准确性。
Manus Agents 让 AI Agent 进入消息应用。在 Telegram 中,你可以发送语音、图片和文档给 Agent,它能触发完整的多步骤任务,从研究和数据处理到生成 PDF 报告,所有结果直接在聊天中交付。连接只需扫描二维码,无需命令行或 API tokens。
Dreamer 平台 由前 Stripe CTO David Singleton 和 Hugo Barra 创立,获得 5000 万美元融资,与 Anthropic 建立合作。核心理念是让用户通过对话构建 Agent 应用:描述需求,名为 Sidekick 的 AI 会在几分钟内构建应用,平台自动处理托管和部署。中等复杂度的应用构建时间为 6-10 分钟。现已开放公开 Beta 测试。
Cloudflare Markdown for Agents 是 Agent 基础设施的潜在变革。AI Agent 在请求头中发送 Accept: text/markdown,如果网站使用 Cloudflare 并启用此功能,会直接返回干净的 markdown 而非 HTML。亚马逊产品页面的 token 消耗从 896,000 降到 8,000,减少 99%。这让一整个 HTML 转 markdown 的工具类别变成可选项。Claude Code 和 OpenCode 等编码 Agent 已经在发送这个请求头。
Ethan Mollick 发布了Agent 时代的 AI 使用指南,提出了理解当前 AI 格局的三层架构:Model(底层 AI 大脑)、App(你实际使用的产品)、Harness(让 AI 使用工具和完成多步任务的系统)。核心观点是:同一个模型在不同 harness 下表现可能截然不同。Claude Opus 4.6 在聊天窗口和 Claude Code 中是两种完全不同的体验。对大多数人来说,现在 app 和 harness 比模型本身更重要。
CodeMiner42 的开发者分享了 Agentic Engineering 实战经验:61 次提交、507 个测试、12k 行代码、5 天内部署到生产环境,全程没有手写一行代码,但做出了每个决策。他区分了 vibecoding(向 Agent 扔提示词然后祈祷)和 agentic engineering(你是导航员,Agent 是司机)。关键建议:为 Agent 设置护栏——CLAUDE.md/AGENTS.md 上下文文件、linters、测试、git hooks 和 CI/CD。Agent 是乘数,只有当它乘以的东西有价值时才起作用。
Notion CEO Ivan Zhao 在一次深度访谈中表示:“不能被 Agent 使用的产品没有未来”。他透露自己基本不再像普通人一样查看邮箱,而是通过 Custom Agent 对话式管理收件箱。Notion 正在从按席位收费转向按用量收费,Custom Agents 是第一个采用新模式的产品。Alpha 客户 Ramp 已用它节省约 2000 人工小时。Ivan 还分享了他们雇佣 16 岁高中生做工程师的故事:“很多经验已经不重要了,你只需要够优秀、会问对的问题。”
这周的关键词是"层级"。Karpathy 把 Claws 定义为 Agent 之上的新层;Mollick 用 Model/App/Harness 三层架构解释 AI 格局;Taalas 用专用硅片重新定义存储和计算的边界;Cloudflare 在 HTTP 层为 Agent 开辟新通道。当底层能力持续溢出,真正的创新发生在如何把它们组织起来。
下周见。