Knowledge VaultReading Workbench
Reading Detail

使用 Claude 进行计算机和浏览器操作的最佳实践 | Claude

BestBlogs.dev - 精选文章 · 2026-05-12
#人工智能
Open Original
archivedone

Snapshot Reader

Captured

📌 One-Sentence Summary

本文提供了将 Claude 的计算机和浏览器操作能力集成到应用中的官方最佳实践,重点涵盖截图缩放、分辨率选择、点击精度优化、思考力度调整和提示注入防御。

📝 Summary

这篇来自 Claude 官方博客的文章为开发者使用 Claude 最新模型(4.6 系列和 Opus 4.7)构建计算机操作智能体提供了全面指南。文章指出,单一影响最大的优化措施是在发送前预先缩放截图以适配 API 限制(4.6 系列:长边 1568px / 1.15MP;Opus 4.7:长边 2576px / 3.75MP),从而防止静默缩放导致的坐标不匹配。推荐的起始分辨率为 4.6 系列使用 1280x720,Opus 4.7 使用 1080p,并提供了一个 Python 函数用于按图像进行“最大 API 适配”缩放。该指南涵盖了诊断点击问题(持续偏移、接近命中、点击错误元素)、模型选择(Sonnet 4.6 适合机械精度,Opus 4.7 适合推理)、通过缩放和键盘替代方案处理小目标,以及内容排序(文本优先于图像)。此外,还针对自适应思考力度提出了详细建议:对于 4.6 系列模型,“中等”力度是最佳选择,而 Opus 4.7 则默认使用“高”力度。最后,文章讨论了提示注入防御,包括训练时的鲁棒性、实时分类器和持续红队测试。

💡 Main Points

  1. 预先缩放截图以适配 API 限制是对点击精度影响最大的单一优化措施。 超过 API 内部处理限制(4.6 系列:1568px/1.15MP;Opus 4.7:2576px/3.75MP)的截图会被静默缩放,导致模型感知的图像与坐标空间不匹配,从而产生持续偏移的点击。
  2. 对于 Claude 4.6 系列模型,“中等”思考力度提供了最佳的精度与成本比,而“高”力度是 Opus 4.7 的推荐默认值。 UI 自动化任务主要依赖于感知,而非深度逻辑。对于 4.6 系列模型,中等力度能以高力度一半的 Token 成本达到接近最高的任务成功率。对于 Opus 4.7,高力度是处理复杂多步骤交互的默认选择。
  3. 在消息内容数组中,将文本指令放在图像之前,以提高点击精度。 这种排序让模型在处理截图时知道要寻找什么,与先放置图像相比,能提高点击预测的准确性。
  4. 提示注入是计算机操作智能体面临的严重风险,需要多层防御。 智能体在设计上会与不受信任的内容交互。Anthropic 的防御策略包括通过强化学习实现训练时的鲁棒性、扫描对抗性内容的实时分类器,以及持续的红队测试。

💬 Key Quotes

  • 点击精度是任何计算机操作集成的基础。如果点击没有落在应有的位置,下游的一切都无法正常工作:表单无法填写,按钮无法按下,工作流也会失败。
  • 单一影响最大的优化措施也是最简单的之一:在将截图发送到 API 之前预先缩放它们。
  • 将力度设置为中等,能以高力度大约一半的输出 Token 成本,达到接近最高的任务成功率。
  • UI 自动化任务与编码或数学问题有着根本的不同。大多数计算机操作行为是感知性和机械性的:识别正确的元素,点击正确的位置,而非深度逻辑推理。

📊 Article Meta

AI Screening:94
Featured:Yes
Source:Claude Blog
Author:Claude Blog
Category:人工智能
Language:英文
Read Time:34 min
Word Count:8431
Tags: Claude, 计算机操作, 浏览器自动化, 最佳实践, 截图缩放