Knowledge Vault

Snapshot Reader

Captured

📌 One-Sentence Summary

本文提供了将 Claude 的计算机和浏览器操作能力集成到应用中的官方最佳实践，重点涵盖截图缩放、分辨率选择、点击精度优化、思考力度调整和提示注入防御。

📝 Summary

这篇来自 Claude 官方博客的文章为开发者使用 Claude 最新模型（4.6 系列和 Opus 4.7）构建计算机操作智能体提供了全面指南。文章指出，单一影响最大的优化措施是在发送前预先缩放截图以适配 API 限制（4.6 系列：长边 1568px / 1.15MP；Opus 4.7：长边 2576px / 3.75MP），从而防止静默缩放导致的坐标不匹配。推荐的起始分辨率为 4.6 系列使用 1280x720，Opus 4.7 使用 1080p，并提供了一个 Python 函数用于按图像进行“最大 API 适配”缩放。该指南涵盖了诊断点击问题（持续偏移、接近命中、点击错误元素）、模型选择（Sonnet 4.6 适合机械精度，Opus 4.7 适合推理）、通过缩放和键盘替代方案处理小目标，以及内容排序（文本优先于图像）。此外，还针对自适应思考力度提出了详细建议：对于 4.6 系列模型，“中等”力度是最佳选择，而 Opus 4.7 则默认使用“高”力度。最后，文章讨论了提示注入防御，包括训练时的鲁棒性、实时分类器和持续红队测试。

💡 Main Points

预先缩放截图以适配 API 限制是对点击精度影响最大的单一优化措施。 超过 API 内部处理限制（4.6 系列：1568px/1.15MP；Opus 4.7：2576px/3.75MP）的截图会被静默缩放，导致模型感知的图像与坐标空间不匹配，从而产生持续偏移的点击。
对于 Claude 4.6 系列模型，“中等”思考力度提供了最佳的精度与成本比，而“高”力度是 Opus 4.7 的推荐默认值。 UI 自动化任务主要依赖于感知，而非深度逻辑。对于 4.6 系列模型，中等力度能以高力度一半的 Token 成本达到接近最高的任务成功率。对于 Opus 4.7，高力度是处理复杂多步骤交互的默认选择。
在消息内容数组中，将文本指令放在图像之前，以提高点击精度。 这种排序让模型在处理截图时知道要寻找什么，与先放置图像相比，能提高点击预测的准确性。
提示注入是计算机操作智能体面临的严重风险，需要多层防御。 智能体在设计上会与不受信任的内容交互。Anthropic 的防御策略包括通过强化学习实现训练时的鲁棒性、扫描对抗性内容的实时分类器，以及持续的红队测试。

💬 Key Quotes

点击精度是任何计算机操作集成的基础。如果点击没有落在应有的位置，下游的一切都无法正常工作：表单无法填写，按钮无法按下，工作流也会失败。
单一影响最大的优化措施也是最简单的之一：在将截图发送到 API 之前预先缩放它们。
将力度设置为中等，能以高力度大约一半的输出 Token 成本，达到接近最高的任务成功率。
UI 自动化任务与编码或数学问题有着根本的不同。大多数计算机操作行为是感知性和机械性的：识别正确的元素，点击正确的位置，而非深度逻辑推理。

📊 Article Meta

AI Screening：94

Featured：Yes

Source：Claude Blog

Author：Claude Blog

Category：人工智能

Language：英文

Read Time：34 min

Word Count：8431

Tags： Claude, 计算机操作, 浏览器自动化, 最佳实践, 截图缩放