Knowledge VaultReading Workbench
Reading Detail

Agili 的 AIGC 周刊(Y26W06)

Agili 的 AIGC 周刊 · 2026-02-15
Open Original
archivedone

Snapshot Reader

Captured

本周最大的新闻是中国开源模型的集体爆发——GLM-5、MiniMax M2.5、Qwen-Image-2.0 接连发布,开源阵营正式进入 Opus 级能力区间。Anthropic 完成 300 亿美元 G 轮融资,估值 3800 亿,创下 AI 领域单轮融资纪录。与此同时,GitHub 推出 Agentic Workflows、OpenAI 发布长时运行 Agent 三件套,编码 Agent 正在从"辅助工具"变成"基础设施"。


模型发布

GLM-5 发布:744B 参数开源模型登顶

智谱 AI 发布 GLM-5,744B 总参数、40B 激活,预训练数据从 23T 扩展到 28.5T tokens。关键技术点是集成了 DeepSeek Sparse Attention(DSA),在保持 200K 上下文能力的同时大幅降低部署成本。

在 Artificial Analysis 的 Intelligence Index 上,GLM-5 拿下开源模型榜首(得分 50),在 GDPval-AA 白领工作基准上排名仅次于 Opus 4.6 和 GPT-5.2。幻觉控制方面表现优异:AA-Omniscience 测试得分 -1(越低越好,表示几乎无幻觉),是所有测试模型中最优的。

MIT 许可证、vLLM/SGLang 即日支持、BF16 权重约 1.5TB。如果你在跑本地推理,这是目前开源阵营能拿到的最强底座。

🔗 Z.ai 官方博客


GPT-5.3-Codex-Spark:1000 tok/s 的实时编码模型

OpenAI 和 Cerebras 合作推出 GPT-5.3-Codex-Spark,主打超快推理速度:1000+ tokens/秒,响应延迟压到毫秒级。

这不是性能怪兽,而是交互范式的改变。当模型反馈快到接近打字速度,人机协作的节奏会完全不同——你不再需要"等 AI 想完",而是可以像对话一样实时迭代。

目前仅限 Pro 用户,API 也有配额限制。但如果你在做交互式编码工具,这是值得关注的方向。

🔗 OpenAI 官方公告


Gemini 3 Deep Think:科研级推理的重大升级

Google DeepMind 发布 Gemini 3 Deep Think 的重大更新,专门面向科研场景。

几个硬数据:ARC-AGI-2 达到 84.6%(由 ARC Prize Foundation 验证),Codeforces Elo 3455,IMO 金牌级别。更值得关注的是化学和物理奥赛也达到金牌水平——这不再只是"数学很强"的模型。

实际应用案例:Rutgers 大学数学家用它审查技术论文,发现了人类同行评审漏掉的逻辑缺陷;Duke 大学材料科学实验室用它优化晶体生长配方,成功合成了 100μm+ 的薄膜。

首次通过 Gemini API 向研究者开放,但需要申请早期访问。

🔗 DeepMind 博客


Qwen-Image-2.0:7B 统一生成编辑模型

阿里通义千问发布 Qwen-Image-2.0,7B 参数,同时支持图像生成和编辑,原生 2K 分辨率,最长支持 1K token 的提示词。

几个亮点:文字渲染能力很强,能生成带复杂排版的海报和信息图;多面板漫画生成时角色一致性保持得不错;从 20B 压缩到 7B,本地部署门槛大幅降低。

API 已在阿里云上线,Demo 在 Qwen Chat 可试用。权重暂未开放,但按 Qwen 团队的惯例,开源只是时间问题。

🔗 Qwen 官方博客


MiniMax M2.5:为多 Agent 协作设计的编码模型

MiniMax M2.5 的定位很明确:不是单打独斗的最强模型,而是专门为多 Agent 协作优化的"团队选手"。

SWE-Bench Pro 55.4%,超过 Opus 4.6 的 53.4%;Multi-SWE-Bench 51.3%,同样领先。推理速度 100 tok/s,价格 $0.06/M blended——限时免费。10B 激活参数,是同级别最小的模型。

在 Cline 的测试中,M2.5 在 subagent 场景下表现尤其出色:上下文切换干净,不会抢其他 Agent 的活,知道什么时候该交接。如果你在做多 Agent 编排,值得试试。

🔗 Cline 博客


Claude Opus 4.6:早期客户的实战反馈

Anthropic 发布了一篇 幕后文章,分享 Harvey、bolt.new、Shopify、Lovable 四家公司在 Opus 4.6 早期测试中的真实体验。

Harvey 的法律基准 BigLaw Bench 首次突破 90%(90.2%),40% 的任务拿到满分。bolt.new 有个瀑布图 bug 之前用老模型试了 5 次都失败,Opus 4.6 一次搞定——它发现了 8 个并行 HubSpot API 调用绕过了限流保护。

Shopify 工程师的反馈最有意思:“我发现自己在对 AI 说’你说得对’,而不是反过来。”

🔗 Claude 官方博客


工具更新

GitHub Agentic Workflows:用 Markdown 编写智能工作流

GitHub Agentic Workflows 是 GitHub Next 推出的技术预览:用 Markdown 描述你想要的结果,在 GitHub Actions 中用编码 Agent 执行。

想象一下早上打开仓库:Issues 自动分类打标、CI 失败自动调查并提 PR 修复、文档已经跟代码同步更新、两个改进测试的 PR 等着你审查。这些以前要写复杂的 YAML 配置,现在用自然语言描述意图就行。

支持 Copilot CLI、Claude Code、OpenAI Codex 作为执行引擎。默认只读权限,写操作需要显式审批。安全沙箱、工具白名单、网络隔离都做了。

这是"Continuous AI"概念的落地:把 AI 集成到软件开发生命周期里,就像 CI/CD 一样成为基础设施的一部分。

🔗 GitHub 官方博客


OpenAI Skills + Shell + Compaction:长时运行 Agent 三件套

OpenAI 发布了 三个新原语,专门解决长时运行 Agent 的痛点:

Skills:可复用的指令包,装载到容器里让 Agent 按流程执行。相当于给 Agent 一本可随时查阅的操作手册,避免在系统提示里塞一堆规则。

Shell:OpenAI 托管的容器环境,有网络访问,能装依赖、跑脚本、写输出。Agent 终于有了真正的"执行环境"。

Compaction:服务端自动压缩上下文,长对话不再需要手动管理 context window。

Glean 的实战数据:用 Skills 把 Salesforce 相关任务的准确率从 73% 提升到 85%,首字延迟降低 18.1%。最佳实践是把负例和边界情况写进 Skill 描述里,避免误触发。

🔗 OpenAI 开发者博客


Cline CLI 2.0:从 IDE 侧边栏到终端

Cline CLI 2.0 把完整的编码 Agent 带到了终端。

核心卖点是并行:开三个 tmux 窗格,一个重构数据库、一个更新文档、一个跑迁移脚本。每个实例完全隔离,各干各的。在 IDE 里做这件事需要开多个窗口、管理多个扩展实例,没人真的会这么干。

-y 参数开启无人值守模式,支持 stdin/stdout 管道,可以塞进 CI/CD 流水线。--acp 参数让它兼容 JetBrains、Zed、Neovim、Emacs——你的 Agent 不再被锁死在某个编辑器里。

Apache 2.0 开源,npm install -g cline 即装即用。MiniMax M2.5 和 Kimi K2.5 限时免费,零门槛试用。

🔗 Cline 官方博客


Stripe Minions:每周 1000+ PR 的无人值守编码 Agent

Stripe 公开了内部的 Minions 系统:每周超过 1000 个合并的 PR 完全由 Agent 从头到尾完成,人类只负责 Review。

Stripe 的场景很特殊:数亿行代码、Ruby + Sorbet 技术栈、承载万亿美元级支付。Minions 的设计思路是"创意交给 LLM,执行交给确定性工具链"。

几个技术细节:基于 Block 的开源 Agent goose 做了深度定制;接入 MCP 协议,提供 400+ 内部工具;通过 Slack 入口触发,可以读取整个讨论线程作为上下文;CI 最多跑两轮,强调本地能发现的问题不拖到 CI。

这是大厂级 Agent 落地的珍贵案例研究。

🔗 Stripe Dev 博客


Devin Autofix:写代码→审查→修复→合并的闭环

Cognition 给 Devin 加了 Autofix 功能:当 Linter 报错、CI 挂了、安全扫描发现问题,或者 Review 工具留了评论,Devin 可以自动修复并更新 PR。

这是"Agent 闭环"的关键一步。以前 Agent 写完代码,人要手动把 Review 意见复制粘贴回去让它改。现在整个链路打通了:写代码 → 被审查 → 发现问题 → 自动修复 → CI 绿了 → 等人类拍板。

人类的工作收窄到架构决策、产品方向、需要领域知识的边界情况。机械性的修修补补,Agent 自己搞定。

🔗 Cognition AI 博客


SQLite-Vector:把向量检索带进 SQLite

SQLite-Vector 是一个跨平台扩展,让 SQLite 支持向量相似度检索。C 实现 + SIMD 加速,默认内存占用约 30MB,支持 Float32/16、BFloat16、Int8、1Bit 等多种向量类型。

适用场景是端侧 AI:移动 App、桌面应用、边缘设备。数据留在本地,不需要云端向量数据库。预编译二进制覆盖 Linux/macOS/Windows/Android/iOS,还有 WASM、Swift、Python 绑定。

注意授权是 Elastic License 2.0,非生产环境随便用,生产或托管服务需要商业授权。

🔗 GitHub 仓库


Nowledge Mem:跨 Agent 的本地记忆管理器

Nowledge Mem 解决一个很实际的问题:你用 Claude Code 聊了一堆上下文,换到 Cursor 又要重新解释一遍。

它是一个本地优先的记忆管理器,支持 MCP 协议,可以跨 Codex、Claude Code、Cursor 等工具共享上下文。聊天记录、笔记、文档都可以提炼成可重用的记忆,用图结构可视化知识关联。

所有计算和存储都在本地,不上传云端。如果你同时用多个 AI 工具,这能省掉不少重复沟通的时间。

🔗 Nowledge Mem


Cua:计算机使用 Agent 平台

Cua 提供完整的计算机使用 Agent 基础设施:云端沙箱(Linux/Windows/macOS)、VLM 推理服务、轨迹记录、数据集生成、基准测试。

核心卖点是一站式:不用自己搭沙箱、不用自己对接多个 VLM 提供商、不用自己写录制回放逻辑。按积分计费,免费层提供 10 积分起步。

Agent SDK 和 Computer SDK 在 GitHub 开源(MIT 许可),如果只想用基础能力可以自己部署。

🔗 Cua 官网


MiniMax Agent 平台:AI 专家生态

MiniMax Agent 推出了一个专家 Agent 平台,涵盖 Landing Page 生成、PPT 制作、Excel 处理、行业研究、销售情报等多个领域。

有意思的是"对冲基金专家团队":18 个 AI 专家的多 Agent 系统,包括巴菲特、芒格等投资大师的风格模拟,加上估值、情绪、技术分析等专业分析师角色,协作完成投资分析。

作为 M2.5 模型的配套产品,可以理解为 MiniMax 在展示"Agent 能干什么"的可能性边界。

🔗 MiniMax Agent 专家平台


行业资讯

Dario Amodei 深度访谈:AI 经济学与"天才之国"

Anthropic CEO Dario Amodei 做了一期 三小时长访谈,几个关键数据:

  • RL scaling 呈现与预训练相同的对数线性规律,2017 年提出的"大算力团块假说"至今成立
  • AI 编程当前带来约 15-20% 的总生产力提升,半年前是 5%,在加速
  • 1-3 年内有 50% 概率出现"天才之国"(数据中心里的诺奖级 AI),10 年内 90% 确信
  • AI 公司天然盈利:50% 算力训练、50% 推理,推理毛利率超 50%。亏损来自需求预测偏差

关于中美竞争:芯片和数据中心不应卖给中国,但疾病治疗药物可以。“我希望在未来的谈判中,古典自由民主制度握着更强的牌。”

🔗 Baoyu.io 分析 | 原始视频


Anthropic 完成 300 亿美元 G 轮融资

Anthropic 宣布完成 300 亿美元 G 轮融资,投后估值 3800 亿美元,创下 AI 领域单轮融资纪录。

几个数据点:年化收入 140 亿美元,其中 Claude Code 单产品贡献超 25 亿;企业客户年增长 300%;日活用户突破 5000 万。融资由 Lightspeed 领投,Google、Salesforce、Amazon 跟投。

资金用途:扩建数据中心、加速 Claude 5 研发、扩大企业销售团队。按 Dario 访谈的说法,AI 公司推理毛利率超 50%,这笔钱主要是为了抢占算力。

🔗 Anthropic 官方公告


Opus 4.6 vs GPT-5.3 Codex:后基准测试时代的模型比较

Interconnects 发了一篇 深度对比,核心观点是:基准测试分数已经失去了区分度,实际使用体验才是关键。

Codex 5.3 在复杂 bug 定位上略强,但 Opus 4.6 在日常任务上更"省心"——不需要给那么详细的指令,上下文理解更好。如果要推荐给没有编程经验的人,作者会选 Claude。

一个有趣的观察:两款模型都开始"忽略"队列里的次要指令,更适合处理单一、明确的问题,而不是一次塞一堆任务。

文章还回顾了 Gemini 3 Pro 发布时"Google 重回王座"的舆论——两个月后,它在编码 Agent 领域几乎没有存在感。

🔗 Interconnects 原文


Harness Problem:改变编辑工具让 15 个 LLM 编码能力提升 10 倍

这篇研究 提出了一个叫 Hashline 的编辑工具。核心发现:同一个模型,换一个代码编辑接口,能力差异可以达到 10 倍。

最夸张的例子:Grok 在标准设置下 SWE-Bench 得分 6.7%,用 Hashline 达到 68.3%。作者把这叫做"Harness Problem"——我们可能一直在用错误的方式评估模型。

开源项目 oh-my-pi 可以复现这个结果。如果你在做 Agent 工程,这是必读材料。

🔗 原文


再过八个月的 Agents:从 1/4 代码到 9/10 代码

Crawshaw 写了一篇 年度总结:去年 25% 的代码由 AI 写,现在是 90%。

几个关键变化:IDE 在变得不重要,Agent 在终端里跑得更好;前沿模型是必要的,省钱用小模型会拖累整体效率;Agent 开始能处理多日跨度的任务。

一线实践者的反思比理论分析更有价值。

🔗 原文


2026 编程巨变:Anthropic Agent 编程八大趋势

Anthropic 发布了一份 趋势报告,八个预测的核心是:开发者正在从"写代码的人"变成"编排 Agent 写代码的人"。

几个数据点:开发者 60% 的工作用到 AI,但完全甩手的任务只有 0-20%;AI 辅助工作中 27% 是"如果没有 AI 就不会做"的新增工作;乐天让 Claude Code 在 1250 万行代码库里自主工作 7 小时完成了一个完整功能。

报告有替 Claude Code 打广告的成分,但数据值得参考。

🔗 Baoyu.io 解读


Gemini Deep Think 加速科学发现

DeepMind 发了两篇论文,详细介绍 Gemini Deep Think 在科研中的应用

他们构建了一个叫 Aletheia 的数学研究代理,已经产出了几篇可发表的研究论文——包括一篇完全由 AI 自主完成、无人工干预的算术几何论文。

物理和计算机科学方面:解决了一个 10 年没人能证明的在线子模优化猜想(找到反例);帮助理解机器学习优化中的"自适应惩罚"机制;扩展了 AI 令牌拍卖的启示原理。

他们提出了"AI 辅助数学分类法",从 Level 0(练习级)到 Level 4(里程碑突破),目前声称达到 Level 2(可发表质量)。

🔗 DeepMind 博客


量化 Agent 编码评测中的基础设施噪声

Anthropic 工程团队发了一篇 技术报告,揭示了一个被忽视的问题:基准测试分数差异可能来自 VM 配置,而不是模型能力。

在 Terminal-Bench 2.0 上,仅靠调整资源配置,同一个模型的分数差异可达 6 个百分点。原因是容器资源限制:严格限制会让瞬时内存峰值触发 OOM Kill,而宽松限制让模型可以尝试更重的依赖。

建议:排行榜上 3% 以内的差异要打问号,除非评测配置完全对齐。评测时应该指定"保底资源"和"硬限制"两个参数,而不是单一的固定值。

🔗 Anthropic Engineering


别再用提示词去 AI 味了

Baoyu 写了一篇 实操指南,核心观点:所有"去 AI 味提示词"都是错的,你需要的是一份持续更新的 Writing Style Skill。

提示词的问题:所有人用同一套,产出变成 AI 味 2.0;一次性的,换个场景又打回原形;你只说了"不要什么",没告诉 AI 你要什么风格。

解决方案:用自己写的 3-5 篇文章让 AI 分析你的风格,生成 Skill;让 AI 按 Skill 写,你手动改;把修改反馈回 Skill,迭代优化。

作者自己的 Skill 有 150 多行,迭代了几个月。到第十次左右,AI 写的比作者本人还"像作者"。

🔗 Baoyu.io


OpenAI 从使命中删除"安全"一词

OpenAI 重组为公益公司后,使命声明从"safely beneficial"改成了"beneficial"。The Conversation 的分析认为这反映了公司治理的根本变化。

🔗 The Conversation 原文


既然 AI 越来越聪明,学提示词是否浪费时间?

Baoyu 的观点:提示词工程的本质不是"骗 AI",而是需求定义和任务拆解。AI 越强,这些能力越值钱,因为你能用它做的事情更多了。

🔗 Baoyu.io


字节跳动暂停 Seedance 2.0 人脸转语音功能

Seedance 2.0 被发现能根据脸部照片生成高度匹配的语音。出于安全考虑,字节跳动暂停了相关功能。这是 AI 安全的又一个警示:能力越强,滥用风险越高。

🔗 Solidot 报道


下期见。