Knowledge Vault

Snapshot Reader

Captured

本周，AI 的落地应用逐渐褪去狂热，行业焦点转向更务实的工程编排与安全护栏。LiteLLM 曝出的供应链投毒事件为所有调用大模型的开发者敲响了警钟。同时，从 Claude Code 创新的 Auto Mode 权限设计，到 Anthropic 分享的长时运行 AI 应用架构剖析，我们看到，“如何让 Agent 既能高效干活又不出错”正成为当下最重要的命题。

资讯

LiteLLM 曝严重供应链投毒，自动窃取开发者凭据

本周曝出针对 AI 基础设施的严重供应链攻击。LiteLLM 是一个广泛用于大模型路由的开源网关，目前已确认其 1.82.8 版本包含恶意文件。该版本会在 Python 解释器启动时隐蔽窃取并上传开发者的 SSH 密钥与云服务凭据（1.82.7 等版本是否受影响仍待官方确认）。建议团队尽快排查相关依赖并轮换可能泄露的凭据。

CLI 正在成为 AI Agent 时代的重要接口

lark-cli 是飞书近期开源的命令行工具。本周的技术讨论指出，相比传统 API，CLI 提供的纯文本输入输出和自带帮助文档特性，更契合大模型的交互方式。这种范式表明，为内部系统提供结构化、自描述的命令行工具，正成为企业软件接入 AI 代理网络的基础设施。

法院阻止五角大楼将 Anthropic 列为供应链风险

Anthropic 在模型使用条款中明确限制了“自主武器”和“国内大规模监控”等场景。本周，加州联邦法官叫停了五角大楼试图因这些限制而切断与 Anthropic 合作的举措，认为政府行为带有报复性质。这一诉讼凸显了前沿 AI 企业在坚持价值观与获取政府订单之间面临的合规博弈。

高昂推理成本凸显视频大模型商业化瓶颈

Sora 单日推理成本最高达 1500 万美元，而截至目前的总收入仅约 210 万美元。本周披露的这组数据，揭示了高保真视频生成模型的现实困境。在活跃用户下滑的背景下，生成式视频产品如果在算力成本与用户付费意愿之间找不到平衡，将难以建立可持续的商业模式。

模型

Gemini 3.1 Flash Live 优化实时语音交互体验

Gemini 3.1 Flash Live 是 Google 发布的定位于实时对话的多模态模型。新版本重点降低了语音交互延迟，并增强了语调理解与多步任务执行能力。它展现了生成式 AI 从单次文本问答向低延迟语音代理演进的趋势，为复杂的语音应用提供了底层支撑。

Lyria 3 Pro 支持更长时长的精细化音乐生成

Lyria 3 Pro 是 Google 推出的高阶音乐生成模型。本周正式接入 Gemini API 与 Google Vids，支持生成最长 3 分钟的音频，并允许开发者通过提示词控制前奏、主歌和副歌的转场。这标志着 AI 音乐生成正在从简单的片段拼接，走向具备结构化控制能力的工业级音频工作流。

工具

Claude Code 推出 Auto Mode 优化权限与安全边界

Claude Code 是 Anthropic 推出的终端编码助手。为了平衡频繁手动批准带来的“机械点击疲劳”与完全放开权限的风险，本周更新的 Auto Mode 引入了双层分类器防护机制。它能自动放行常规代码修改，同时精准拦截越权删除或凭证探测等高风险行为。这一机制为保持 Agent 自治性与构建可靠安全边界提供了一个可参考的实现。

Anthropic 分享长时运行 AI 应用架构设计经验

构建长时间运行的 AI 应用时，常会面临模型上下文退化和自我评估失真等挑战。Anthropic 工程团队本周分享了一套实用的架构蓝图。他们提出通过引入规划者（Planner）、生成器（Generator）和评估器（Evaluator）的多代理分工机制来管理长任务。这种“模型 + 工作流 + 验证机制”的组合，将 AI 代理从“能写几行代码”推进到了更完整的工程实践方向。

结束语

本周的行业动态表明，AI 的核心挑战正在从单点模型的能力突破，转移到安全治理与工程化落地。无论是防范供应链攻击，还是构建更透明可靠的 Agent 工作流，我们都在见证 AI 基础设施的快速成熟。感谢阅读本期周刊，我们下周见！