Back to Catalog
autoresearch logo
ai-agent1

autoresearch

安德烈·卡帕西的开源AI代理,可在单GPU上通宵自主运行LLM训练实验,编辑代码、评估改进,并在你睡觉时迭代优化。

概述

autoresearch 是由 Andrej Karpathy 发起的一项实验性开源项目,它展示了自主 AI 代理在真实机器学习研究中的强大能力。该项目基于简化的 nanochat 实现,提供了一个最小化的单 GPU 训练框架,其中 AI 编码代理完全掌控了实验循环。

研究人员无需手动修改 Python 代码,只需在 program.md Markdown 文件中编写高级指令。AI 代理会迭代式地修改训练脚本(train.py),运行固定时长(通常为 5 分钟)的训练实验,根据验证指标(例如 val_bpb)评估改进效果,并仅将成功的变更提交到 Git 功能分支。

核心特性

  • 自主代理循环:AI 代理负责规划实验、修改代码(架构、超参数、优化器等)、执行训练,并决定保留哪些更改。
  • 单 GPU 高效运行:设计适用于易获取的硬件;每个实验运行固定的短时长(约 5 分钟),每小时可进行约 12 次实验。
  • 基于 Git 的版本控制:通过功能分支上的提交记录跟踪改进,便于审查和回滚更改。
  • 极简配置:代码库极小(几个文件共约 630-1000 行),专注于一个明确的指标进行客观评估。
  • 通过提示词实现人工监督:用户通过 Markdown 中的自然语言指令定义“研究组织”,从而实现复杂的代理行为,无需触及底层代码。
  • 易于扩展:可轻松添加更多代理、优化 program.md 提示词,或适配不同的模型/任务。

工作原理

  1. 用户设置仓库并在 program.md 中提供研究目标。
  2. 启动 AI 编码代理(例如,基于 Claude、GPT 或本地模型)。
  3. 代理创建/使用一个 Git 功能分支并开始迭代:
    • 编辑 train.py
    • 运行定时训练实验。
    • 测量关键验证指标。
    • 如果指标改善,则提交更改;否则丢弃并再次尝试。
  4. 经过一夜或数天,系统会累积数十到数百次实验,从而发现更优的模型配置。

该项目强调设计 代理提示词(“研究组织代码”),以在无需人工干预的情况下最大化长期研究效率。

应用场景

  • 个人机器学习研究:在你休息或专注于更高层次想法时,让代理探索超参数、架构或优化方法。
  • 教学演示:在真实、可运行的机器学习场景中理解代理式 AI 工作流程。
  • 分布式集群:社区扩展支持多个代理或机器协作(例如,autoresearch@home 项目)。 e。 -a。
  • 快速原型设计:在小规模 LLM 训练中测试自主科学发现的想法。 -p。
  • 代理能力基准测试:评估不同 LLM 作为自主研究者的表现优劣。

快速开始

克隆代码库,通过 pyproject.toml 安装依赖项,配置您的 AI 服务提供商(API 密钥),准备包含研究指令的 program.md 文件,然后启动代理循环。它可在单 GPU 上运行,设置要求极简。

代码库中提供了一个基准 program.md 文件,您可在此基础上迭代优化以获得更好的结果。

重要意义

autoresearch 让我们得以初步窥见未来:AI 代理承担实证研究的繁重工作,解放人类以专注于创造性引导。它已引发巨大的社区兴趣,催生了众多分支项目、移植版本(适用于 AMD、Apple Silicon 等平台),并推动了关于代理集群与自动化科学“早期奇点”的讨论。

局限性

  • 每次实验都从头开始运行(基础版本不支持跨运行持久化记忆)。
  • 专注于单一简单指标和小型模型。
  • 成功高度依赖于底层编码代理的质量和提示工程技巧。

有关最新详细信息、代码和社区讨论,请访问官方 GitHub 代码库。

Tags

AI代理大语言模型机器学习自主研究PyTorchNanochat卡帕西代理循环实验Python