概覽

autoresearch 是由 Andrej Karpathy 發起的實驗性開源專案，旨在展示自主人工智慧代理在真實機器學習研究中的強大能力。它提供一個基於簡化版 nanochat 實作的最小化單 GPU 訓練框架，其中人工智慧程式碼代理能完全掌控實驗循環。

研究人員無需手動修改 Python 程式碼，只需在 program.md Markdown 文件中撰寫高階指令。代理隨後會迭代編輯訓練腳本 (train.py)，執行固定時長（通常為 5 分鐘）的訓練實驗，根據驗證指標（例如 val_bpb）評估改進效果，並僅將優勝的變更提交至 Git 功能分支。

主要特色

自主代理循環：人工智慧代理規劃實驗、修改程式碼（架構、超參數、優化器等）、執行訓練，並決定保留哪些內容。
單 GPU 高效性：專為易取得的硬體設計；每個實驗執行固定短時長（約 5 分鐘），每小時可進行約 12 次實驗。
基於 Git 的版本控制：透過功能分支上的提交追蹤改進，方便審查與回退變更。
最小化設定：精簡的程式碼庫（約 630-1000 行，分佈於數個檔案），聚焦於單一明確的客觀評估指標。
透過提示進行人為監督：使用者透過 Markdown 中的自然語言指令定義「研究組織」，無需觸及底層程式碼即可實現複雜的代理行為。
可擴展性：易於新增更多代理、改進 program.md 提示，或調整以適應不同模型/任務。

運作原理

使用者設定儲存庫，並在 program.md 中提供研究目標。
啟動人工智慧程式碼代理（例如基於 Claude、GPT 或本地模型）。
代理建立/使用 Git 功能分支並開始迭代：
- 編輯 train.py。
- 執行計時訓練實驗。
- 測量關鍵驗證指標。
- 若指標改善，則提交變更；否則捨棄並重試。
經過一夜或數日，系統積累數十至數百次實驗，從而發現更優的模型配置。

本專案強調設計代理提示（即「研究組織程式碼」），以在無需人為干預的情況下最大化長期研究效率。

應用場景

個人機器學習研究：讓代理在你休息或專注於高階構想時，探索超參數、架構或優化方案。
教學示範：在真實可執行的機器學習情境中，理解代理式人工智慧工作流程。
分散式群體：社群擴展功能允許多個代理或機器協作（例如 autoresearch@home 專案）。
快速原型開發：在小規模大型語言模型訓練中，測試自主科學發現的構想。
代理能力基準測試：評估不同大型語言模型作為自主研究者的表現優劣。

開始使用

複製儲存庫，透過 pyproject.toml 安裝相依套件，設定您的 AI 供應商（API 金鑰），準備一份包含研究指令的 program.md，然後啟動代理程式循環。它只需單一 GPU 即可執行，且設定需求極低。

此儲存庫包含一份基礎的 program.md 檔案，可透過反覆修改以獲得更佳成果。

重要性

autoresearch 讓我們得以初步窺見未來：AI 代理程式將處理實證研究的繁瑣工作，使人類得以專注於創意規劃。它已引發龐大的社群關注、衍生出眾多分支版本、移植版本（AMD、Apple Silicon 等），並激發了關於代理程式群組與自動化科學「早期奇點」的討論。

限制

每次實驗皆從零開始（基礎版本未具備跨執行週期的持久記憶功能）。
專注於單一簡易指標與小型模型。
成果高度依賴底層編碼代理程式的品質與提示工程的優劣。

欲獲取最新詳細資訊、程式碼與社群討論，請造訪官方 GitHub 儲存庫。

autoresearch

概覽

主要特色

運作原理

應用場景

開始使用

重要性

限制

Tags

Related Entries

autoresearch

Hermes Agent

Open SWE

Hermes Agent

Open SWE

工作空間智慧代理

Related Reads

OpenAI GPT-5.5 提示指南：逐步教學

什麼是OC Maker？2026年革新原創角色創作的AI工具

Google 投入高達400億美元支持 Anthropic 並提供5GW運算力：AI軍備競賽進入新紀元