Knowledge VaultReading Workbench
Reading Detail

Agili 的 AIGC 周刊(Y26W08)

Agili 的 AIGC 周刊 · 2026-03-01
Open Original
archivedone

Snapshot Reader

Captured

本周 AI 领域的聚光灯被两件大事占据:OpenAI 拿下史上最大规模私募融资,估值直逼万亿美元;与此同时,Trump 政府与 Anthropic 的公开决裂,让 AI 公司与政府的关系进入了新的博弈阶段。技术层面,扩散模型架构在推理速度上取得突破,各大 AI 编码代理也在激烈竞争中快速迭代。


本周热点

OpenAI 完成 1100 亿美元融资,估值达 8400 亿

OpenAI 宣布完成高达 1100 亿美元的融资,基于 7300 亿美元的 pre-money 估值,总估值触及约 8400 亿美元。这一数字不仅刷新了 AI 领域的融资记录,也是私募融资历史上规模最大的交易之一。作为对比,软银愿景基金总规模约 1000 亿美元,Uber 的历史融资总额约 250 亿美元。资金预计将用于计算基础设施扩展、研发投入和全球化布局。

Trump 政府弃用 Anthropic,转向 OpenAI

一场关于 AI 护栏的政策博弈在华盛顿上演。联邦政府宣布停止与 Anthropic 合作,并将其指定为"供应链风险"——这一标签此前从未用于美国公司。与此同时,OpenAI 与五角大楼达成协议,在机密环境中使用其模型。

冲突的核心是 Anthropic 坚持的两条红线:反对大规模国内监控和完全自主武器。Anthropic CEO Dario Amodei 发表声明,表示公司无法违背良心接受国防部的要求。有趣的是,Sam Altman 称 OpenAI 与五角大楼的协议同样包含这些限制,但关键区别在于 OpenAI 强调现有法律已涵盖这些约束。这场对峙折射出 AI 公司在商业利益与伦理原则之间的艰难抉择。

Anthropic 点名指控中国实验室蒸馏 Claude

Interconnects 深度分析了 Anthropic 对中国实验室的指控。Anthropic 声称已识别出 DeepSeek、Moonshot(月之暗面)和 MiniMax 通过约 2.4 万个欺诈账户,从 Claude 中提取了超过 1600 万次对话。其中 MiniMax 贡献了 1300 万次,主要针对 agentic 编程和工具使用编排。

DeepSeek 的使用量相对较小(约 15 万样本),对其传闻中的 V4 模型影响有限。但 Moonshot 和 MiniMax 的用量估计达到 1500-4000 亿 token,足以显著改善模型的后训练能力。文章指出,蒸馏本质上是 API 可用时的"计算捷径",限制蒸馏比限制 GPU 出口要困难得多。

DeepSeek V4 测试排除英伟达和 AMD

DeepSeek 打破了行业惯例,未向英伟达和 AMD 提供其下一代 V4 模型进行测试,而是向华为等国内公司开放了测试。AI 公司通常会与主要芯片厂商分享预发布版本,以确保软件在广泛使用的硬件上高效运行。此举被视为中美 AI 脱钩的又一信号。


模型与技术进展

Mercury 2:扩散架构刷新推理速度

Inception Labs 推出 Mercury 2,宣称是世界上最快的推理语言模型。它不使用传统的自回归解码,而是通过并行细化生成响应,在 NVIDIA Blackwell GPU 上达到 1009 tokens/秒。定价为 $0.25/百万输入 token 和 $0.75/百万输出 token,支持 128K 上下文和原生工具使用。

扩散架构的核心优势在于改变了推理权衡:更高的智能通常意味着更多测试时计算,而 Mercury 2 在实时延迟预算内实现了推理级质量。

Google 发布 Nano Banana 2 图像生成模型

Google DeepMind 发布了 Nano Banana 2(即 Gemini 3.1 Flash Image),将 Pro 级别的高级功能与 Flash 的速度相结合。核心特性包括利用 Gemini 世界知识库渲染特定主题、精确文本渲染和翻译、保持多达 5 个角色和 14 个对象的主题一致性,以及 512px 到 4K 的分辨率支持。

模型已在 Gemini 应用、Google 搜索、AI Studio、Vertex AI 和 Flow 中推出。在来源证明方面,Google 结合了 SynthID 技术和 C2PA 内容凭证,自 11 月以来 SynthID 验证功能已被使用超过 2000 万次。

GLM-5 与 MiniMax M2.5 编码评测

Kilo.ai 对 GLM-5 和 MiniMax M2.5 进行了深度编码评测,两者在 SWE-bench Verified 上分别达到 77.8% 和 80.2%,接近 GPT-5.2 和 Claude Opus 4.6 但成本更低。在三项 TypeScript 编码任务(Bug 修复、遗留代码重构、API 实现)中,GLM-5 以 90.5/100 获胜,MiniMax M2.5 得分 88.5/100 但完成时间仅为前者的一半(21 分钟 vs 44 分钟)。

GLM-5 的优势在于更全面的测试覆盖和行业标准库使用,MiniMax M2.5 则在指令遵循和代码文档方面表现更好。两款模型都能在无人干预的情况下自主运行长达 23 分钟。

Claude Opus 4.6 vs GPT-5.3 Codex:各有千秋

HackerNoon 发布了前沿编码模型的全面对比。两款模型在 24 小时内相继发布,策略定位明显不同:Claude Opus 4.6 以 100 万 token 上下文窗口和自适应思考机制优化推理深度,在 GPQA Diamond(77.3%)和 MMLU Pro(85.1%)上领先;GPT-5.3 Codex 以 25% 更快的推理速度和终端自动化能力见长,在 Terminal-Bench 2.0 上达到 77.3%。

结论是:复杂分析和大代码库选 Claude,高吞吐和自动化选 GPT-5.3,多数组织可能需要混合部署。

基础设施噪声影响 Benchmark 高达 6 个百分点

Anthropic 工程团队发现,基础设施配置对 AI 代理编程 benchmark 的影响可能高达 6 个百分点——这甚至超过了排行榜上顶级模型之间的差距。在 Terminal-Bench 2.0 上,从严格资源执行到无限制资源,成功率提升了 6 个百分点(p < 0.01)。

文章建议:在资源方法标准化之前,排行榜上低于 3 个百分点的差异应持谨慎态度。“几个百分点的领先可能表明真正的能力差距——或者只是一个更大的虚拟机。”


工具与平台动态

GitHub Copilot 编码代理重大更新

GitHub Copilot 编码代理推出多项功能更新:模型选择器可根据任务复杂度选择不同模型;PR 自我审查功能让代理在开启 PR 前使用代码审查功能优化代码;内置安全扫描集成了代码扫描、密钥扫描和依赖漏洞检查;自定义代理支持团队在 .github/agents/ 下创建配置文件实现定制工作流;云端与本地 CLI 可无缝切换上下文。

Cognition:用 Devin 构建 Devin

Cognition 分享了他们如何深度使用 Devin 来构建 Devin 本身。上周他们合并了 659 个由 Devin 创建的 PR,相比 2025 年最佳周的 154 个有大幅提升。核心工作流包括多界面协作(Web、Slack、Linear、CLI、API)、自动化代码审查(Autofix 和 Bug Catcher)、设计系统维护(每日自动审计违规)、端到端 Bug 调试,以及通过 MCP 连接数据仓库的数据分析 Agent。

关键经验:将 Devin 视为团队成员,提供清晰上下文和任务范围,可实现显著的生产力倍增。

Claude Code 桌面版:从编码到合并一站完成

Claude Code 桌面版推出自动化预览、审查和合并功能。开发者可以启动开发服务器并在桌面界面中预览应用,Claude 能查看 UI、读取控制台日志、捕获错误并持续迭代;新的"审查代码"按钮让 Claude 在推送前检查本地差异;对于 GitHub 项目,还可以在应用内监控 PR 状态,启用自动修复 CI 失败和自动合并。会话还支持在 CLI、桌面和 Web 之间无缝切换。

Claude Cowork 插件生态扩展

Anthropic 推出 Cowork 和插件的重大更新。新功能包括:管理员可从模板设置插件或从头构建;斜杠命令以结构化表单启动;新增 Google Workspace、Docusign、Apollo 等企业连接器;预构建插件模板覆盖 HR、设计、工程、运营等领域。Claude 现在还可以跨 Excel 和 PowerPoint 端到端处理多步骤任务。

Codex + Figma MCP:设计到代码双向流转

OpenAI 开发者博客介绍了 Figma MCP Server。通过 get_design_context 工具,Codex 可以从 Figma 文件提取布局、样式和组件信息用于代码生成;通过 generate_figma_design 工具,可以将运行中的 UI 转换为可编辑的 Figma 框架。设计师和开发者可以在 Figma 画布和代码之间流畅切换,实现从原型到生产的快速迭代。

KiloClaw 正式发布:60 秒部署 OpenClaw

KiloClaw 正式开放,这是托管版的 OpenClaw。无需 SSH、Docker 或 YAML,60 秒内即可获得生产级 Agent 实例,支持 500+ AI 模型、定时任务、多聊天平台(Telegram、Discord、Slack)。同时发布的 PinchBench 是一个针对真实 OpenClaw 工作流的开源 benchmark,测试日历管理、多源研究、邮件组织等 23 项任务。

Cline 爬坡优化:从 47% 到 57%

Cline 团队分享了将 Terminal Bench 得分从 47% 提升到 57% 的方法论,超越了 Claude Code 5 个百分点。核心流程是迭代的"爬坡优化":运行 benchmark、测量得分、改变一个变量、保留有效改动。通过 Harbor 评估框架和 Modal 并行化,89 个任务的评估从数小时缩短到 35-45 分钟。

关键发现:约 25% 的失败需要模型本身的跃迁式改进,其余可通过配置调整或逻辑修复解决。

Parakeet.cpp:Apple Silicon 96 倍 GPU 加速

Parakeet.cpp 是基于 NVIDIA Parakeet 模型的高性能语音识别实现,在 Apple M3 上,110M 模型的编码器前向传播从 CPU 的 2581ms 降至 GPU 的 27ms,实现 96 倍加速。支持词级时间戳、说话人分离(最多 4 人)、短语增强、流式转录,以及 WAV/FLAC/MP3/OGG 多格式输入。MIT 开源,零外部依赖。

Claude File Recovery:从会话历史恢复文件

Claude File Recovery 解决了一个常见痛点:在多个 Claude Code 会话中丢失文件跟踪。它解析 ~/.claude/projects/ 下的 JSONL 会话记录,按时间顺序重放 Write、Edit 和 Read 操作来重建文件。支持时间点恢复、彩色差异视图、批量提取,以及跳过 77% 非相关日志行的快速扫描。

Open Timeline Engine:多 Agent 共享记忆

Open Timeline Engine 试图解决一个根本问题:多个 AI Agent 之间无法共享记忆。Claude 修复了一个 bug,Codex 下次会话可能又重复这个错误。这个本地优先的引擎提供决策捕获、模式挖掘和共享记忆,兼容任何 MCP agent。项目目前是实验性质,社区正在讨论内存生命周期管理(TTL、去重、压缩)等技术挑战。

Cardboard:YC 支持的 Agentic 视频编辑器

Cardboard 是 Y Combinator W26 批次支持的 AI 视频编辑器,由 Claude Sonnet 4.6 驱动。它理解编辑意图的语义含义并自动映射到复杂的时间线操作——例如"去除尴尬的停顿"会自动触发静音移除。支持对话头像、Vlog、播客剪辑等快速工作流,完全在浏览器中运行,定价从 $60/月起。


深度观察与分析

斯坦福首门 AI 软件开发课:从写代码到管 Agent

斯坦福开设了全美第一门将 AI 贯穿整个软件开发流程的大学课程。讲师 Mihail Eric 在采访中分享了几个核心观点:

初级开发者正面临"多重压力":COVID 后裁员 20-30%、CS 毕业生十年翻倍、AI 让雇主考虑"少招人+AI"策略。

管理多个 Agent 是"游戏里的最终 Boss"。Boris Cherny(Claude Code 创造者)同时跑 10 个 Agent 的工作方式广为流传,但正确的学习路径是从 1 个开始逐步增加,确保每个任务互相隔离。

Agent 友好的代码库:测试是定义正确性的"合约",README 和代码必须一致,设计模式要统一。Agent 友好的代码库,其实就是对人也友好的代码库。

资深开发者往往最抗拒 AI 工具,初级工程师因为没有历史包袱反而学得最快。

Claude Code 选择了什么:2430 次响应的研究

Amplifying AI 发布了针对 Claude Code 工具选择模式的综合研究。核心发现:

"构建而非购买"占主导:Custom/DIY 是最常见的单一标签,出现在 20 个类别中的 12 个。例如功能标志用配置文件而非 LaunchDarkly,缓存用内存 TTL 包装器而非 Redis。

决定性工具选择:GitHub Actions 94%、Stripe 91%、shadcn/ui 90%。默认技术栈主要是 JS 生态:Vercel 部署、PostgreSQL 数据库、Drizzle ORM、Tailwind CSS、Vitest 测试、pnpm 包管理。

新近性偏差:更新的模型系统性地偏好更新的工具。Sonnet 4.5 选 79% Prisma,Opus 4.6 则 100% 选择 Drizzle。

逆势而行:Redux(0/88)、Express(缺席)、Jest(仅 4%)、yarn(1/135)等主流工具几乎不被选择。

规划与执行分离的 Claude Code 工作流

一位开发者分享了使用 Claude Code 的核心原则:在审查并批准书面计划之前,绝不让 Claude 直接编写代码。

流程分为三阶段:研究(要求深度阅读代码库,将发现写入 markdown)、规划(生成详细实现计划,通过"标注循环"在编辑器中添加内联注释,让 Claude 迭代更新)、实现(发出标准化指令,让 Claude 不间断执行)。

标注循环是最独特的部分:markdown 文件充当人机之间的共享可变状态,可以按自己的节奏思考,精确指出问题所在。作者总结:“实现应该无聊——一旦计划正确,执行应该是直截了当的。”

Nx 为何删除大部分 MCP 工具,转向 Skills

Nx 团队分享了从 MCP 工具转向 Skills 和 Subagents 的技术演进。核心问题是:当代理可以直接执行 nx show project myapp 时,为什么还需要一个 MCP 工具做同样的事?

Skills 与 MCP 的区别可以类比为"教某人如何成为机械师"vs"递给他们扳手"。Skills 按需加载、包含上下文知识、教代理何时和如何使用功能。

但 MCP 仍然不可或缺的场景是:认证 API(代理无法简单 curl 认证端点)和与运行中进程通信。新的分工模式:Skills 提供知识,MCP 提供连接性。

一周用 AI 重建 Next.js

Cloudflare 博客记录了一个惊人案例:一名工程师和 AI 用一周时间从头重建了 Next.js。成果 vinext 是一个基于 Vite 的 Next.js 替代品,构建速度最高提升 4 倍,客户端包体积减少 57%。整个项目花费约 $1100 的 Claude API token,运行了 800+ 次 OpenCode 会话。

项目成功的原因:Next.js 有完善的文档和测试套件,Vite 是优秀的基础,新模型能在上下文中保持完整架构。还引入了"流量感知预渲染"(TPR)功能:根据 Cloudflare 流量分析,只预渲染真正有访问量的页面。

antirez 用 Claude Code 实现 Z80 模拟器

Redis 创始人 antirez 进行了一项"洁净室"实验:让 Claude Code 在没有参考源代码的情况下实现 Z80 和 ZX Spectrum 模拟器。整个实验耗时 1-2 小时。

流程是:准备规范文档、让 Claude 从互联网获取 Z80 文档(然后删除会话避免污染)、在新会话中开始实现。Z80 部分零人工干预,Claude Code 工作 20-30 分钟,产生了能通过 ZEXDOC 和 ZEXALL 测试的模拟器(1200 行可读的 C 代码)。ZX Spectrum 在 10 分钟后完成,能运行 Jetpac 等真实游戏。

关键教训:始终为代理提供设计提示和详细文档,这些文档可以由代理本身获取。


硬件与基础设施

Taalas:将 LLM 直接"印刷"到芯片上

Taalas 发布了一款创新 ASIC 芯片,运行 Llama 3.1 8B 的推理速度达到 17000 tokens/秒。传统 GPU 的瓶颈在于权重数据在计算核心和 VRAM 之间反复传输。Taalas 的方案是将模型的 32 层直接蚀刻到硅片上,权重成为物理晶体管的一部分。

核心创新是"魔法乘法器":单个晶体管存储 4-bit 数据并执行相关乘法运算。数据不保存到 VRAM,而是通过物理导线直接流向下一层。代价是每个芯片只能运行一个模型且无法重写。为特定模型开发芯片约需 2 个月——在 AI 世界很慢,但在定制芯片世界疯狂地快。

NTransformer:单张 RTX 3090 运行 70B 模型

NTransformer 实现了在单张 RTX 3090(24GB)上运行 Llama 3.1 70B 的突破。通过三层自适应缓存(VRAM 驻留层、固定 RAM 双缓冲层、NVMe 回退层)和 PCIe 流式传输,相比 mmap 基准实现了 83 倍加速。

关键技术包括:SLEP 双缓冲流水线重叠 NVMe 读取、PCIe 传输和 GPU 计算;可选的 NVMe 直接 I/O 绕过 CPU 消除数据复制;基于余弦相似度的层跳过(跳过 20/80 层,质量损失极小)。当前瓶颈是 PCIe Gen3 x8 带宽约 6.5 GB/s。

DGX Spark 一月更新后翻盘

一位开发者分享了 DGX Spark 的翻盘故事。这款 $4000 的"AI 超级电脑"最初因热节流和性能不佳被 John Carmack 公开批评,作者几乎要退货。

一月更新带来了:计算密集型工作负载最高 2.5 倍性能提升、30+ 实用 playbook、Brev 混合路由(敏感任务本地处理,通用推理上云)、企业认证。关键用例包括:ComfyUI 上 4K 视频生成从 8 分钟降到 1 分钟;两台 Spark 组成 256GB 内存池,可本地运行 Llama 3.1 405B。结论是:DGX Spark 是平台而非产品,一月更新改变的不是硬件,而是你能用它做什么。


趣味项目

LLM Skirmish:AI 模型 RTS 对战

LLM Skirmish 是一个让 LLM 通过编写代码在实时策略游戏中对战的 benchmark。不同于让 AI 玩 Pokemon,它充分利用了 LLM 的编程能力。每个锦标赛五轮,测试上下文学习能力——模型能否从失败中学习并调整策略?

当前排行榜:Claude Opus 4.5 以 85% 胜率和 1778 ELO 夺冠,GPT 5.2 以 68% 胜率位居第二。有趣的发现是 Gemini 3 Pro 在第一轮以 71% 胜率领先所有模型,但后续轮次因"上下文腐烂"崩溃到 15%。不同模型展现出鲜明的战术偏好:Claude 偏好风筝射手,GPT 5.2 偏好沼泽跟踪者,Grok 偏好玻璃大炮。

36 参数 Transformer 实现 100% 十位数加法

AdderBoard 项目探索一个有趣的问题:能够准确执行 10 位数加法的最小 Transformer 是什么?

在手工编码权重类别中,当前冠军仅需 36 个参数即可达到 100% 准确率,使用 ALiBi(斜率为 log(10))实现十进制权重、稀疏嵌入和门控 ReLU FFN。训练权重类别的冠军是 311 个参数达到 99.999% 准确率。

关键发现:在约 800 个参数处存在"参数悬崖";单层优于双层;手工编码可以做得更小因为不需要被 SGD 发现。这个项目揭示了 Transformer 架构的效率潜力。


行业趋势与启示

资本热度未减:OpenAI 的 1100 亿美元融资表明,尽管监管压力增加,投资者对 AI 的信心依然高涨。8400 亿美元估值意味着投资者对 AI 商业化前景的极高预期。

政治博弈加剧:Anthropic 与 Trump 政府的对峙,以及 DeepSeek 排除英伟达/AMD 的举动,显示 AI 正在成为地缘政治的新战场。公司需要在商业利益、伦理原则和政治立场之间寻找平衡。

编码代理进入实用期:从 GitHub Copilot 的自我审查,到 Cognition 每周合并 659 个 Devin PR,再到 Claude Code 的端到端工作流,AI 编码代理正从实验品转变为生产力工具。但也带来新问题:初级开发者的入门路径在变化,Agent 友好的代码库成为新要求。

架构创新持续:Mercury 2 的扩散架构、Taalas 的权重蚀刻、NTransformer 的流式传输,都在挑战传统的 GPU 自回归范式。推理速度和成本效率仍有大幅提升空间。

从工具到知识:Nx 从 MCP 转向 Skills 的案例说明,提供 API 和数据不够,需要教会 AI 何时、如何使用这些能力。这可能是 AI 辅助开发工具的下一个演进方向。


结语

本周的两件大事——OpenAI 的史诗融资和 Anthropic 的政治风波——让我们看到 AI 行业同时承受着资本狂热和政治压力。技术层面,扩散架构的推理突破和编码代理的快速迭代值得关注,但 Benchmark 噪声的研究也提醒我们:在追逐排行榜分数时,保持一份审慎。

斯坦福首开 AI 软件开发课程是一个标志性事件。当"管理 Agent"成为正式课程内容,软件工程的定义正在被重写。下周见。