
ai-agent1
autoresearch
安德烈·卡帕西的开源AI代理,可在单GPU上通宵自主运行LLM训练实验,编辑代码、评估改进,并在你睡觉时迭代优化。
概述
autoresearch 是由 Andrej Karpathy 发起的一项实验性开源项目,它展示了自主 AI 代理在真实机器学习研究中的强大能力。该项目基于简化的 nanochat 实现,提供了一个最小化的单 GPU 训练框架,其中 AI 编码代理完全掌控了实验循环。
研究人员无需手动修改 Python 代码,只需在 program.md Markdown 文件中编写高级指令。AI 代理会迭代式地修改训练脚本(train.py),运行固定时长(通常为 5 分钟)的训练实验,根据验证指标(例如 val_bpb)评估改进效果,并仅将成功的变更提交到 Git 功能分支。
核心特性
- 自主代理循环:AI 代理负责规划实验、修改代码(架构、超参数、优化器等)、执行训练,并决定保留哪些更改。
- 单 GPU 高效运行:设计适用于易获取的硬件;每个实验运行固定的短时长(约 5 分钟),每小时可进行约 12 次实验。
- 基于 Git 的版本控制:通过功能分支上的提交记录跟踪改进,便于审查和回滚更改。
- 极简配置:代码库极小(几个文件共约 630-1000 行),专注于一个明确的指标进行客观评估。
- 通过提示词实现人工监督:用户通过 Markdown 中的自然语言指令定义“研究组织”,从而实现复杂的代理行为,无需触及底层代码。
- 易于扩展:可轻松添加更多代理、优化 program.md 提示词,或适配不同的模型/任务。
工作原理
- 用户设置仓库并在
program.md中提供研究目标。 - 启动 AI 编码代理(例如,基于 Claude、GPT 或本地模型)。
- 代理创建/使用一个 Git 功能分支并开始迭代:
- 编辑
train.py。 - 运行定时训练实验。
- 测量关键验证指标。
- 如果指标改善,则提交更改;否则丢弃并再次尝试。
- 编辑
- 经过一夜或数天,系统会累积数十到数百次实验,从而发现更优的模型配置。
该项目强调设计 代理提示词(“研究组织代码”),以在无需人工干预的情况下最大化长期研究效率。
应用场景
- 个人机器学习研究:在你休息或专注于更高层次想法时,让代理探索超参数、架构或优化方法。
- 教学演示:在真实、可运行的机器学习场景中理解代理式 AI 工作流程。
- 分布式集群:社区扩展支持多个代理或机器协作(例如,autoresearch@home 项目)。 e。 -a。
- 快速原型设计:在小规模 LLM 训练中测试自主科学发现的想法。 -p。
- 代理能力基准测试:评估不同 LLM 作为自主研究者的表现优劣。
快速开始
克隆代码库,通过 pyproject.toml 安装依赖项,配置您的 AI 服务提供商(API 密钥),准备包含研究指令的 program.md 文件,然后启动代理循环。它可在单 GPU 上运行,设置要求极简。
代码库中提供了一个基准 program.md 文件,您可在此基础上迭代优化以获得更好的结果。
重要意义
autoresearch 让我们得以初步窥见未来:AI 代理承担实证研究的繁重工作,解放人类以专注于创造性引导。它已引发巨大的社区兴趣,催生了众多分支项目、移植版本(适用于 AMD、Apple Silicon 等平台),并推动了关于代理集群与自动化科学“早期奇点”的讨论。
局限性
- 每次实验都从头开始运行(基础版本不支持跨运行持久化记忆)。
- 专注于单一简单指标和小型模型。
- 成功高度依赖于底层编码代理的质量和提示工程技巧。
有关最新详细信息、代码和社区讨论,请访问官方 GitHub 代码库。
Tags
AI代理大语言模型机器学习自主研究PyTorchNanochat卡帕西代理循环实验Python