Knowledge Vault

Snapshot Reader

Captured

📌 One-Sentence Summary

Claude 托管智能体引入了梦境功能以实现自我改进的记忆、成果评估功能以基于评分标准进行自我修正，以及多智能体编排以处理复杂任务委派。

📝 Summary

Anthropic 的这篇博文宣布了 Claude 托管智能体的三项重大更新：梦境、成果评估和多智能体编排。梦境是一个定时执行的过程，它会回顾过去的智能体会话和记忆存储，从中提取模式、整理记忆，并实现随时间推移的自我改进，对于长期运行和多智能体工作流尤其有用。成果评估功能允许开发者定义一个成功评分标准，由独立的评估器根据该标准对输出进行评分，使智能体无需人工审核即可自我修正；内部基准测试显示，任务成功率最高可提升 10 个百分点。多智能体编排功能让主智能体分解复杂任务，并将其委派给拥有各自模型、提示词和工具的专用子智能体，这些子智能体在共享文件系统上并行工作。博文还重点介绍了来自 Harvey、Netflix、Every's Spiral 和 Wisedocs 等团队的真实应用案例，展示了在完成率、分析速度和写作质量方面的显著提升。

💡 Main Points

梦境功能通过回顾过去的会话以提取模式并整理记忆，从而实现智能体的自我改进。 这一定时执行的过程能够识别重复出现的错误、偏好的工作流以及团队范围内的偏好，在记忆演变过程中重构记忆以保持高价值信号，使智能体能够在两次会话之间实现自我改进。
成果评估功能允许智能体根据定义的评分标准进行自我修正，无需人工干预。 开发者编写一个成功评分标准；独立的评估器在其自身的上下文窗口内根据该标准评估输出，精准定位失败点并触发重做，在测试中任务成功率最高可提升 10 个百分点。
多智能体编排功能将复杂任务分解为并行的子任务，并委派给专用子智能体处理。 主智能体将工作分解为多个部分，并将每个部分分配给拥有各自模型、提示词和工具的专用子智能体，这些子智能体在共享文件系统上并行工作。主智能体可以在工作流中途进行检查，所有步骤均可通过 Claude 控制台进行追踪。

💬 Key Quotes

梦境功能能够发现单个智能体无法自行察觉的模式，包括重复出现的错误、智能体趋同的工作流，以及团队共享的偏好。
当智能体知道什么是‘好’的标准时，它们才能发挥出最佳水平。
在测试中，与标准提示循环相比，成果评估功能将任务成功率最高提升了 10 个百分点，其中最难的问题提升幅度最大。
当单个智能体难以出色完成过多工作时，多智能体编排功能让主智能体将工作分解为多个部分，并将每个部分委派给专用智能体。

📊 Article Meta

AI Screening：94

Featured：Yes

Source：Claude Blog

Author：Claude Blog

Category：人工智能

Language：英文

Read Time：4 min

Word Count：800

Tags： Claude, 托管智能体, 梦境, 成果评估, 多智能体编排