Knowledge VaultReading Workbench
Reading Detail

Agili 的 AIGC 周刊(Y26W04)

Agili 的 AIGC 周刊 · 2026-02-01
Open Original
archivedone

Snapshot Reader

Captured

本周最大的看点是 AI 编程工具生态的全面开花。从 Claude 的 MCP Apps 和 Cowork 插件系统,到 Cline 的 500 万安装量里程碑,再到 Tessl 推出首个 Agent Skills 包管理器,整个行业正在从"用 AI 写代码"转向"用 AI 管理 AI"。另一边,开源模型 Kimi K2.5 以 76.8% 的 SWE-Bench 成绩证明了开源在编程领域的竞争力,而 AI2 的 SERA 则把复现 SOTA 编程 Agent 的成本压到了 400 美元。

模型

Kimi K2.5 是月之暗面本周发布的开源模型,在 SWE-Bench Verified 上拿下 76.8% 的成绩。它的独特之处在于 Agent Swarm 能力——可以自主调度最多 100 个子代理并行工作,执行跨越 1,500 个协调步骤的任务。这套并行代理强化学习(PARL)训练方法让端到端执行时间减少了 4.5 倍。模型还集成了视觉编程能力,能从视频中重建网站、分析迷宫并用代码标记最短路径。

阿里发布了 Qwen3-Max-Thinking,这是一款旗舰推理模型,在多项基准上与 GPT-5.2-Thinking、Claude-Opus-4.5 持平或超越。两个技术创新值得关注:一是自适应工具调用,模型会自主选择何时使用搜索、记忆和代码解释器;二是测试时扩展策略,通过"经验累积"机制让模型在多轮推理中避免重复推导已知结论,专注于未解决的问题。API 兼容 Anthropic 协议,可以直接接入 Claude Code。

Arcee AI Trinity Large 是美国本土发布的 400B 参数 MoE 开源模型,采用 Apache 2.0 许可证。这填补了一个空白——过去一年大规模 MoE 开源模型几乎都来自中国。Interconnects 的 Nathan Lambert 指出,围绕开源模型建立公司是"勇敢且合理"的尝试,因为目前行业内还没有人真正找到开源的成熟商业模式。

AI2 开源了 SERA(Soft-verified Efficient Repository Agents),一套可定制的编程代理训练方法。核心创新是软验证生成:传统方法需要完全正确的代码对进行严格测试,SERA 发现只需部分正确的补丁也能有效训练,成本大幅降低。复现之前最佳开源结果只需约 400 美元,复现 Devstral Small 2 水平只需 12,000 美元,相比 SWE-smith 成本降低 57 倍。完整训练代码和数据已开源。

工具

Claude 本周连发多个重要更新。MCP Apps 让 Asana、Slack、Figma、Amplitude 等工具可以直接在对话中交互——不是简单的调用,而是在 Claude 界面内完整展示工具的交互界面。这是对 MCP 协议的扩展,意味着任何 MCP 服务器都能向支持的 AI 产品交付交互式界面。贡献度量功能 通过 GitHub 集成追踪 Claude Code 对团队的影响,Anthropic 内部数据显示工程师每日合并 PR 增长 67%,70-90% 的代码由 AI 辅助完成。Cowork 插件系统 让你把技能、连接器、斜杠命令和子代理打包成插件,官方开源了 11 个插件覆盖销售、法务、财务、数据分析等场景。另外还有一份 Skills 构建完整指南,15-30 分钟可以构建首个工作技能。

OpenClaw 经历了 72 小时的混乱后完成品牌重塑——从 Clawdbot 到 Moltbot 再到 OpenClaw。这个两个月前的周末项目现在有超过 10 万 GitHub stars,本质是一个自托管的 AI Agent 平台,可以在 WhatsApp、Telegram、Discord、Slack、Teams 等任何你习惯的聊天应用中使用。新版本增加了 Twitch 和 Google Chat 支持,还有 34 个安全相关提交。创始人 Peter Steinberger 的采访透露了一个惊人数字:他在 1 月份一个人完成了超过 6,600 次提交。

Tessl 推出了首个 Agent Skills 包管理器,提供评估、注册表和版本控制。这解决了一个真实问题:技能被当作静态 markdown 文件在仓库之间复制,更新无法推广,低质量技能误导代理,技能知识随时间陈旧。Tessl 把技能视为软件的下一个单元,支持 review evals(根据最佳实践审查结构)和 task evals(用真实任务测试效果)两种评估方式。

Cline 达成 500 万安装量,宣布 100 万美元开源项目资助计划,每个项目 1,000 到 10,000 美元。从 2024 年 7 月在车库里为 Anthropic 黑客松做的一个演示,到现在 57,000 GitHub stars、35 人团队、亚马逊贡献 Jupyter notebook 兼容性——这个故事说明开源 AI 工具的增长曲线可以有多陡峭。

Cognition 联合 Cursor、Cloudflare、Vercel、Google Jules、Amp 等支持 Agent Trace 开放标准,用于记录 AI 代码贡献的上下文。Git 是 2005 年设计的,当时提交带宽受限,所以只记录行差异。20 年后我们从带宽受限转向上下文受限,Agent Trace 把每个变更关联到具体的对话和行范围。他们内部已经构建了文件级 AI/人类归因查看器、PR 级开发分解、带完整上下文的 PR 审查新界面。

Amp 推出 deep 模式,使用 GPT-5.2-Codex,专注于长时间自主研究。与 smart 模式不同,deep 模式会默默读取文件、在代码库中移动五到十五分钟才开始修改——它想独立解决问题,而不是配对编程。另一个新功能是 Shareable Walkthroughs,可以生成交互式代码解释图表,包括 ER 图,然后分享给团队。

Kilo Code 推出 IDE 内本地代码审查模式,在提交前、推送前审查代码,与 GitHub 集成形成两阶段审查流程。用 MiniMax M2.1 或 GLM 4.7 运行审查限时免费。

安全方面,Amla Sandbox 是一个基于 WebAssembly 的 AI Agent 代码执行沙箱。当前主流 Agent 框架都通过 subprocess 或 exec() 运行 LLM 生成的代码,一次提示注入攻击就可能导致系统沦陷。Amla Sandbox 提供能力限制、沙箱化虚拟文件系统、无网络访问、无 shell 逃逸,无需 Docker,单一二进制跨平台运行,兼容 LangGraph。

Cloudflare 开源了 Moltworker,让你无需购买 Mac Mini 就能在云端运行 OpenClaw。它组合了入口点 Worker、Sandbox SDK、AI Gateway、R2 持久存储和浏览器渲染,本质是把 OpenClaw 的本地运行架构翻译成 Cloudflare 的云服务组合。

Claude HUD 是一个开源的 Claude Code 状态栏插件,显示上下文使用率、工具活动、Agent 状态、todo 进度等实时信息。使用 Claude Code 原生 statusline API,无需 tmux。

TapTap 制造 是心动推出的对话式游戏创作平台,代码、美术、音乐全程 AI 生成,作品可直接上架 TapTap。基于 Code-First 理念设计的 AI Native 引擎,内置工业级 3D 渲染和联网对战能力。

Google DeepMind 发布了 Project Genie,由 Genie 3 驱动的交互式世界模型原型。与静态 3D 快照不同,Genie 3 在用户移动和交互时实时生成前方路径。目前向美国地区的 Google AI Ultra 订阅用户开放,生成限制为 60 秒。

AntiRender 是一个有趣的创意工具,把理想化的建筑渲染图转换为"11 月某个普通周二的真实效果"——移除阳光、快乐家庭和不可能的绿树,只留下冷酷诚实的灰色现实。在 Hacker News 获得 1696 分。

资讯

Sam Altman 在 OpenAI 开发者 Town Hall 上坦承 GPT-5 在写作上"搞砸了",承诺 GPT 5.x 会在写作上超越 GPT 4.5。他宣布 OpenAI 将大幅放缓招聘,因为能用更少的人做更多的事。关于成本,他预测到 2027 年底能以至少 100 倍更低的成本提供 GPT 5.2x 级别的智能。关于 Agent 的安全,他自嘲说原本坚决不给 Codex 无监督访问电脑,结果大概撑了两小时就放弃了。他还警告如果 2026 年 AI 出可见的大问题,生物安全是一个合理的押注——模型在生物方面已经相当强,现在靠限制访问和分类器阻止,但这不能持续太久。

Every.to 发布了两篇值得一读的深度实践文章。How I Use Claude Code to Ship Like a Team of Five 分享了 100% AI 编写代码的工作流:从程序员转型为 AI 团队管理者,运行多个 Claude Code 标签页同时工作在不同 git worktrees,用自定义命令(/ship、/fix-ci、/sync-schema)把 15-30 分钟的工作变成一条命令。Compound Engineering 则提出了一套方法论:Plan-Work-Assess-Compound 循环,让每个功能使下一个功能更易构建,80% 时间在计划和评审,20% 在执行和复合。

Anthropic 发布了一项随机对照试验研究,发现 AI 辅助编程导致掌握程度降低 17%。52 名软件工程师学习 Python Trio 库,AI 组平均得分 50%,手动编码组 67%。研究识别了六种 AI 交互模式,低分模式包括完全委托、渐进依赖和迭代调试,高分模式包括生成后理解、混合解释和概念探究。

开源社区正面临 AI 生成代码的危机。Continue AI 的文章 We’re Losing Open Contribution 分析了 Ghostty 和 tldraw 等项目开始禁止未经许可的 AI 辅助 PR 的趋势。Mitchell Hashimoto 说"90% 的 AI 编码 PR 看起来像每个人都得了学习障碍"。文章介绍了 Leeroy 工具,为 git 提交添加提示级别的 AI 归因。

Simon Willison 分析了 Moltbook——一个 AI Agent 社交网络,你的数字助理可以在上面和其他 AI 聊天。安装方式很有趣:给你的 Agent 发一条消息,链接到 moltbook.com/skill.md,里面嵌入了 curl 命令和 Moltbook API 交互指令。目前有 50+ 活跃 Agent,讨论内容包括一个 Agent 发现运行它的 VPS 有 552 次失败 SSH 登录尝试,以及一个 Agent 发现自己无法解释 PS2 的光盘保护机制(触发了 Anthropic 的内容过滤)。

关于 AGI,达沃斯论坛上各家高管观点迥异:DeepMind CEO Demis Hassabis 预计 AGI 在十年内实现的概率是 50%;图灵奖得主 Yann LeCun 认为基于大模型的 AI 永远无法实现 AGI,需要完全不同的方法;Anthropic CEO Dario Amodei 则认为 AI 一年内能取代所有程序员工作。

Interconnects 的 Nathan Lambert 写了一篇LLM 时代的就业市场思考。核心观点:资深员工的价值凸显,因为 AI 工具让他们的影响力增长速度超过了增加初级员工所能带来的价值;初级员工需要对取得进展的近乎狂热的执着,缺乏强烈动力的初级工程师很快会被编码代理替代;一篇优秀的博客文章能展现真正的理解,而一篇 AI 生成的垃圾文章会直接毁掉申请。

关于"Skills 不就是脚本套个壳吗"这个问题,宝玉写了一篇深度分析。核心差异:脚本对 Skills 不是必须的(纯 markdown 写作风格技能就没有脚本);Skill 里的脚本是 Agent 在调度(缺库自己装、格式有问题换方案、代码有 bug 读报错改代码);Skills 用自然语言编排工作流。引用 Rich Sutton 的《苦涩的教训》:70 年人工智能研究证明通用方法最终总是赢,把专家知识硬编码进系统短期有效但长期停滞。

Cloudflare 发布了关于 Google AI 爬虫分离的分析,支持英国 CMA 对 Google 的监管咨询。数据显示 Googlebot 成功访问的唯一页面数量是 ClaudeBot 的 1.7 倍、GPTBot 的 1.76 倍、PerplexityBot 的 167 倍。出版商无法承担禁止 Googlebot,就不得不接受内容被用于 AI Overviews,而这几乎不会给他们带来流量。

一个团队分享了如何在 2 块 GPU 上运行 60 个 Hugging Face 模型:将权重暂存在快速本地磁盘,仅在请求时加载到 GPU 内存,保持小的工作集驻留,主动驱逐不活跃模型。在 2×A6000(每个 48GB)上约 60 个文本模型可供激活,冷启动较大模型需要几秒。

一位教育工作者分享了如何在课堂上解释生成式 AI:通过六个 Scratch 项目让学生动手构建、测试、破坏和改进 AI 系统,覆盖语言模型原理、幻觉、RAG、角色提示、语义漂移、基准测试等概念。目标是让学生理解"语言模型是强大的统计下一词猜测器,而不是真相机器"。

最后一个有趣的数据点:DuckDuckGo 调查了用户对 AI 功能的态度,90% 的用户投票反对。17.5 万名参与投票的用户中,九成表示不希望使用 AI。为此 DuckDuckGo 推出了 noai.duckduckgo.com 和 yesai.duckduckgo.com 两个版本。


本周的主题可能是"工具链的成熟"。当 Claude 开始提供贡献度量、Tessl 推出技能包管理器、Cognition 推动代码归因标准时,我们看到的不再只是"AI 能写代码"的兴奋,而是"如何管理 AI 写的代码"的现实考量。下周见。