Back to Catalog
autoresearch logo
ai-agent1

autoresearch

Andrej Karpathy 開發的開源人工智慧代理,能在單一 GPU 上自主執行 LLM 訓練實驗,編輯程式碼、評估改進並持續迭代,讓您在睡眠期間也能進行研究。

概覽

autoresearch 是由 Andrej Karpathy 發起的實驗性開源專案,旨在展示自主人工智慧代理在真實機器學習研究中的強大能力。它提供一個基於簡化版 nanochat 實作的最小化單 GPU 訓練框架,其中人工智慧程式碼代理能完全掌控實驗循環。

研究人員無需手動修改 Python 程式碼,只需在 program.md Markdown 文件中撰寫高階指令。代理隨後會迭代編輯訓練腳本 (train.py),執行固定時長(通常為 5 分鐘)的訓練實驗,根據驗證指標(例如 val_bpb)評估改進效果,並僅將優勝的變更提交至 Git 功能分支。

主要特色

  • 自主代理循環:人工智慧代理規劃實驗、修改程式碼(架構、超參數、優化器等)、執行訓練,並決定保留哪些內容。
  • 單 GPU 高效性:專為易取得的硬體設計;每個實驗執行固定短時長(約 5 分鐘),每小時可進行約 12 次實驗。
  • 基於 Git 的版本控制:透過功能分支上的提交追蹤改進,方便審查與回退變更。
  • 最小化設定:精簡的程式碼庫(約 630-1000 行,分佈於數個檔案),聚焦於單一明確的客觀評估指標。
  • 透過提示進行人為監督:使用者透過 Markdown 中的自然語言指令定義「研究組織」,無需觸及底層程式碼即可實現複雜的代理行為。
  • 可擴展性:易於新增更多代理、改進 program.md 提示,或調整以適應不同模型/任務。

運作原理

  1. 使用者設定儲存庫,並在 program.md 中提供研究目標。
  2. 啟動人工智慧程式碼代理(例如基於 Claude、GPT 或本地模型)。
  3. 代理建立/使用 Git 功能分支並開始迭代:
    • 編輯 train.py
    • 執行計時訓練實驗。
    • 測量關鍵驗證指標。
    • 若指標改善,則提交變更;否則捨棄並重試。
  4. 經過一夜或數日,系統積累數十至數百次實驗,從而發現更優的模型配置。

本專案強調設計代理提示(即「研究組織程式碼」),以在無需人為干預的情況下最大化長期研究效率。

應用場景

  • 個人機器學習研究:讓代理在你休息或專注於高階構想時,探索超參數、架構或優化方案。
  • 教學示範:在真實可執行的機器學習情境中,理解代理式人工智慧工作流程。
  • 分散式群體:社群擴展功能允許多個代理或機器協作(例如 autoresearch@home 專案)。
  • 快速原型開發:在小規模大型語言模型訓練中,測試自主科學發現的構想。
  • 代理能力基準測試:評估不同大型語言模型作為自主研究者的表現優劣。

開始使用

複製儲存庫,透過 pyproject.toml 安裝相依套件,設定您的 AI 供應商(API 金鑰),準備一份包含研究指令的 program.md,然後啟動代理程式循環。它只需單一 GPU 即可執行,且設定需求極低。

此儲存庫包含一份基礎的 program.md 檔案,可透過反覆修改以獲得更佳成果。

重要性

autoresearch 讓我們得以初步窺見未來:AI 代理程式將處理實證研究的繁瑣工作,使人類得以專注於創意規劃。它已引發龐大的社群關注、衍生出眾多分支版本、移植版本(AMD、Apple Silicon 等),並激發了關於代理程式群組與自動化科學「早期奇點」的討論。

限制

  • 每次實驗皆從零開始(基礎版本未具備跨執行週期的持久記憶功能)。
  • 專注於單一簡易指標與小型模型。
  • 成果高度依賴底層編碼代理程式的品質與提示工程的優劣。

欲獲取最新詳細資訊、程式碼與社群討論,請造訪官方 GitHub 儲存庫。

Tags

AI代理大型語言模型機器學習自主研究PyTorchnanochatKarpathy代理循環實驗設計Python