Knowledge VaultReading Workbench
Reading Detail

我把 Karpathy 的 AutoResearch 搬到了软件开发领域,效果炸了

BestBlogs.dev · 2026-05-18
#人工智能
Open Original
inboxunread

Snapshot Reader

Captured

📌 一句话摘要

本文详细介绍了如何将 Karpathy 的 AutoResearch 方法迁移到软件开发领域,通过多 Agent 交叉审核、5 维度量化评分和反馈驱动迭代,构建了一个全自动的软件开发系统,能在约 10 分钟内自主完成中等复杂度的开发任务。

📝 详细摘要

本文作者受 Karpathy 在 AI 研究领域提出的 AutoResearch 方法启发,将其核心思想——量化目标、自主循环、只保留改进——迁移到软件开发领域,构建了一个名为 autoresearch 的全自动软件开发系统。该系统以 program.md 为规则核心,通过多 Agent(Codex 和 Claude)交叉审核、5 维度加权评分(正确性、测试、代码质量、安全、性能)和反馈驱动迭代三大改进,实现了从 GitHub Issue 识别、代码实现、测试验证到审核合并的完整闭环。文章详细介绍了系统的架构、核心原则、审核评分体系、优化循环、核心文件、Issue 选择策略、错误处理机制以及多个实战案例。实践表明,该系统能在约 10 分钟内自主完成中等复杂度的开发任务,并达到 9.0/10 的代码质量标准,显著提升了开发效率并降低了人力成本。

💡 主要观点

  1. 将 Karpathy 的 AutoResearch 方法成功迁移到软件开发领域,实现全自动开发闭环。 借鉴 AutoResearch 的量化目标、自主循环和只保留改进的核心思想,将其应用于软件开发,构建了从 Issue 识别到代码合并的全自动系统。
  2. 多 Agent 交叉审核机制是提升代码质量的关键改进。 让 Codex 和 Claude 轮流担任实现者和审核者,利用不同模型的盲区和强项进行交叉验证,能有效发现单 Agent 自审无法发现的问题,显著提升代码质量。
  3. 5 维度加权评分体系将代码质量评估从主观判断转化为量化指标。 通过正确性、测试、代码质量、安全和性能五个维度的加权评分,设定 9.0/10 的达标线,为迭代循环提供了明确的终止条件,确保产出代码的质量。
  4. 审核反馈驱动下一轮实现,形成持续改进的闭环。 将上一轮的审核反馈直接传入下一轮 Agent 的提示词,使 Agent 能针对具体问题进行改进,避免了盲循环,提高了迭代效率。

💬 文章金句

  • 核心思想是:把 AI 研究本身也交给 AI 来自主完成。
  • 把'修改 train.py → 跑 5 分钟实验 → val loss 改善才保留',替换成'实现 GitHub Issue → 跑测试 → 多维评分达标才合并'——这就是本项目的起点。
  • 本项目让 Codex 和 Claude 轮流担任实现者和审核者:A 写完 B 审,B 写完 A 审。不同模型有不同的盲区和强项,交叉审核能发现单 Agent 发现不了的问题。
  • 最终效果:人只提供 Issue 号,剩下的全自动——自动实现、自动测试、自动审核、自动迭代、评分达标后自动 PR + 合并。

📊 文章信息

AI 初评:87
来源:高可用架构
作者:高可用架构
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5847
标签: AutoResearch, AI Agent, 软件开发自动化, 多Agent协作, 代码质量