概述

autoresearch 是由 Andrej Karpathy 发起的一项实验性开源项目，它展示了自主 AI 代理在真实机器学习研究中的强大能力。该项目基于简化的 nanochat 实现，提供了一个最小化的单 GPU 训练框架，其中 AI 编码代理完全掌控了实验循环。

研究人员无需手动修改 Python 代码，只需在 program.md Markdown 文件中编写高级指令。AI 代理会迭代式地修改训练脚本（train.py），运行固定时长（通常为 5 分钟）的训练实验，根据验证指标（例如 val_bpb）评估改进效果，并仅将成功的变更提交到 Git 功能分支。

核心特性

自主代理循环：AI 代理负责规划实验、修改代码（架构、超参数、优化器等）、执行训练，并决定保留哪些更改。
单 GPU 高效运行：设计适用于易获取的硬件；每个实验运行固定的短时长（约 5 分钟），每小时可进行约 12 次实验。
基于 Git 的版本控制：通过功能分支上的提交记录跟踪改进，便于审查和回滚更改。
极简配置：代码库极小（几个文件共约 630-1000 行），专注于一个明确的指标进行客观评估。
通过提示词实现人工监督：用户通过 Markdown 中的自然语言指令定义“研究组织”，从而实现复杂的代理行为，无需触及底层代码。
易于扩展：可轻松添加更多代理、优化 program.md 提示词，或适配不同的模型/任务。

工作原理

用户设置仓库并在 program.md 中提供研究目标。
启动 AI 编码代理（例如，基于 Claude、GPT 或本地模型）。
代理创建/使用一个 Git 功能分支并开始迭代：
- 编辑 train.py。
- 运行定时训练实验。
- 测量关键验证指标。
- 如果指标改善，则提交更改；否则丢弃并再次尝试。
经过一夜或数天，系统会累积数十到数百次实验，从而发现更优的模型配置。

该项目强调设计 代理提示词（“研究组织代码”），以在无需人工干预的情况下最大化长期研究效率。

应用场景

个人机器学习研究：在你休息或专注于更高层次想法时，让代理探索超参数、架构或优化方法。
教学演示：在真实、可运行的机器学习场景中理解代理式 AI 工作流程。
分布式集群：社区扩展支持多个代理或机器协作（例如，autoresearch@home 项目）。 e。 -a。
快速原型设计：在小规模 LLM 训练中测试自主科学发现的想法。 -p。
代理能力基准测试：评估不同 LLM 作为自主研究者的表现优劣。

快速开始

克隆代码库，通过 pyproject.toml 安装依赖项，配置您的 AI 服务提供商（API 密钥），准备包含研究指令的 program.md 文件，然后启动代理循环。它可在单 GPU 上运行，设置要求极简。

代码库中提供了一个基准 program.md 文件，您可在此基础上迭代优化以获得更好的结果。

重要意义

autoresearch 让我们得以初步窥见未来：AI 代理承担实证研究的繁重工作，解放人类以专注于创造性引导。它已引发巨大的社区兴趣，催生了众多分支项目、移植版本（适用于 AMD、Apple Silicon 等平台），并推动了关于代理集群与自动化科学“早期奇点”的讨论。

局限性

每次实验都从头开始运行（基础版本不支持跨运行持久化记忆）。
专注于单一简单指标和小型模型。
成功高度依赖于底层编码代理的质量和提示工程技巧。

有关最新详细信息、代码和社区讨论，请访问官方 GitHub 代码库。

autoresearch

概述

核心特性

工作原理

应用场景

快速开始

重要意义

局限性

Tags

Related Entries

autoresearch

赫尔墨斯智能代理

Open SWE

Hermes Agent

Open SWE

工作区智能助手

Related Reads

OpenAI GPT-5.5 提示指南：分步教程

什么是OC Maker？2026年彻底变革原创角色创作的AI工具

谷歌以40亿美元投资Anthropic，并承诺5GW计算支持：AI军备竞赛进入新时代