
autoresearch
Andrej Karpathys Open-Source-KI-Agent, der eigenständig über Nacht LLM-Trainingsexperimente auf einer einzelnen GPU durchführt, Code bearbeitet, Verbesserungen bewertet und iteriert, während Sie schlafen.
Übersicht
autoresearch ist ein experimentelles Open-Source-Projekt von Andrej Karpathy, das die Kraft autonomer KI-Agenten bei der Durchführung echter maschineller Lernforschung demonstriert. Es bietet eine minimale Single-GPU-Trainingsumgebung basierend auf einer vereinfachten nanochat-Implementierung, in der ein KI-Codierungsagent die vollständige Kontrolle über den Experimentierzyklus übernimmt.
Anstatt Python-Code manuell anzupassen, schreiben Forscher hochrangige Anweisungen in eine program.md-Markdown-Datei. Der Agent bearbeitet dann iterativ das Trainingsskript (train.py), führt Experimente mit festgelegter Zeitdauer (typischerweise 5 Minuten) durch, bewertet Verbesserungen basierend auf einer Validierungsmetrik (z.B. val_bpb) und committet nur die erfolgreichen Änderungen in einen Git-Feature-Branch.
Hauptmerkmale
- Autonomer Agentenzyklus: Der KI-Agent plant Experimente, modifiziert Code (Architektur, Hyperparameter, Optimierer, etc.), führt das Training aus und entscheidet, was behalten wird.
- Single-GPU-Effizienz: Entwickelt für zugängliche Hardware; jedes Experiment läuft für eine feste kurze Dauer (~5 Minuten), was ~12 Experimente pro Stunde ermöglicht.
- Git-basierte Versionierung: Verbesserungen werden über Commits in einem Feature-Branch verfolgt, wodurch Überprüfung und Rücknahme von Änderungen erleichtert werden.
- Minimaler Aufbau: Ein kleiner Codebase (~630-1000 Zeilen über wenige Dateien), der sich auf eine klare Metrik zur objektiven Bewertung konzentriert.
- Menschliche Aufsicht via Prompts: Benutzer definieren die "Forschungsorganisation" durch natürliche Sprachbefehle in Markdown, was fortschrittliche Agentenverhalten ermöglicht, ohne Low-Level-Code zu berühren.
- Erweiterbar: Einfach weitere Agenten hinzuzufügen, die program.md-Prompt zu verbessern oder für verschiedene Modelle/Aufgaben anzupassen.
Funktionsweise
- Der Benutzer richtet das Repo ein und gibt ein Forschungsziel in
program.mdan. - Ein KI-Codierungsagent (z.B. gesteuert von Claude, GPT oder lokalen Modellen) wird gestartet.
- Der Agent erstellt/verwendet einen Git-Feature-Branch und beginnt zu iterieren:
- Bearbeitet
train.py. - Führt ein zeitlich begrenztes Trainingsexperiment durch.
- Misst die entscheidende Validierungsmetrik.
- Bei Verbesserung committet er die Änderung; andernfalls verwirft er sie und versucht es erneut.
- Bearbeitet
- Über Nacht oder über Tage sammelt das System Dutzende bis Hunderte von Experimenten und bringt bessere Modelkonfigurationen hervor.
Das Projekt betont die Entwicklung des Agenten-Prompts (der "Forschungsorg-Code"), um die langfristige Forschungsgeschwindigkeit ohne menschliches Eingreifen zu maximieren.
Anwendungsfälle
- Persönliche ML-Forschung: Lassen Sie einen Agenten Hyperparameter, Architekturen oder Optimierungen erforschen, während Sie schlafen oder sich auf höherrangige Ideen konzentrieren.
- Bildungsdemo: Verstehen Sie Agentic-AI-Arbeitsabläufe in einem realen, ausführbaren ML-Kontext.
- Verteilte Schwärme: Community-Erweiterungen ermöglichen die Zusammenarbeit mehrerer Agenten oder Maschinen (z.B. autoresearch@home-Projekte).
- Schnelles Prototyping: Testen Sie Ideen für autonome wissenschaftliche Entdeckung im kleinen Maßstab des LLM-Trainings.
- Benchmarking von Agenten-Fähigkeiten: Bewerten Sie, wie gut verschiedene LLMs als autonome Forscher abschneiden.
Erste Schritte
Klonen Sie das Repository, installieren Sie die Abhängigkeiten über pyproject.toml, konfigurieren Sie Ihren KI-Anbieter (API-Schlüssel), bereiten Sie eine program.md mit Ihren Forschungsanweisungen vor und starten Sie die Agentenschleife. Es läuft auf einer einzelnen GPU und erfordert minimalen Aufwand.
Das Repo enthält eine Basis-program.md, die für bessere Ergebnisse weiterentwickelt werden kann.
Warum es wichtig ist
autoresearch bietet einen frühen Einblick in eine Zukunft, in der KI-Agenten die Routinearbeit der empirischen Forschung übernehmen und den Menschen für kreative Entscheidungen freistellen. Es hat großes Interesse in der Community geweckt, zu Forks, Portierungen (AMD, Apple Silicon usw.) sowie Diskussionen über Agentenschwärme und die "frühe Singularität" der automatisierten Wissenschaft geführt.
Einschränkungen
- Experimente beginnen bei jedem Durchlauf von neuem (kein persistenter Speicher über Läufe hinweg in der Basisversion).
- Fokussiert auf eine einzelne, einfache Metrik und kleine Modelle.
- Der Erfolg hängt stark von der Qualität des zugrunde liegenden Programmieragenten und des Prompt Engineerings ab.
Für die neuesten Details, den Code und Community-Diskussionen besuchen Sie das offizielle GitHub-Repository.