
autoresearch
El agente de IA de código abierto de Andrej Karpathy que ejecuta de forma autónoma experimentos de entrenamiento de LLM durante la noche en una sola GPU, editando código, evaluando mejoras e iterando mientras duermes.
Descripción general
autoresearch es un proyecto experimental de código abierto creado por Andrej Karpathy que demuestra el poder de los agentes de IA autónomos para realizar investigación real en aprendizaje automático. Proporciona un entorno de entrenamiento minimalista para una sola GPU basado en una implementación simplificada de nanochat, donde un agente de IA de codificación toma el control total del ciclo de experimentación.
En lugar de ajustar manualmente el código Python, los investigadores escriben instrucciones de alto nivel en un archivo Markdown llamado program.md. El agente luego edita iterativamente el script de entrenamiento (train.py), ejecuta experimentos de entrenamiento de tiempo fijo (típicamente 5 minutos), evalúa las mejoras basándose en una métrica de validación (por ejemplo, val_bpb), y solo confirma los cambios ganadores en una rama de funcionalidad de Git.
Características principales
- Ciclo de agente autónomo: El agente de IA planifica experimentos, modifica el código (arquitectura, hiperparámetros, optimizador, etc.), ejecuta el entrenamiento y decide qué mantener.
- Eficiencia para una sola GPU: Diseñado para hardware accesible; cada experimento se ejecuta durante una duración fija corta (~5 minutos), permitiendo ~12 experimentos por hora.
- Control de versiones basado en Git: Las mejoras se rastrean mediante confirmaciones en una rama de funcionalidad, facilitando la revisión y reversión de cambios.
- Configuración minimalista: Una base de código pequeña (~630 1000 líneas en unos pocos archivos) centrada en una métrica clara para evaluación objetiva.
- Supervisión humana mediante prompts: Los usuarios definen la "organización de investigación" a través de instrucciones en lenguaje natural en Markdown, permitiendo comportamientos sofisticados del agente sin tocar código de bajo nivel.
- Extensible: Fácil de añadir más agentes, mejorar el prompt en program.md o adaptarlo para diferentes modelos/tareas.
Cómo funciona
- El usuario configura el repositorio y proporciona un objetivo de investigación en
program.md. - Se lanza un agente de IA de codificación (por ejemplo, impulsado por Claude, GPT o modelos locales).
- El agente crea/usa una rama de funcionalidad de Git y comienza a iterar:
- Edita
train.py. - Ejecuta un experimento de entrenamiento cronometrado.
- Mide la métrica clave de validación.
- Si hay mejora, confirma el cambio; de lo contrario, lo descarta e intenta de nuevo.
- Edita
- Durante la noche o a lo largo de días, el sistema acumula docenas a cientos de experimentos, descubriendo mejores configuraciones del modelo.
El proyecto hace hincapié en la ingeniería del prompt del agente (el "código de la organización de investigación") para maximizar la velocidad de investigación a largo plazo sin intervención humana.
Casos de uso
- Investigación en ML personal: Permita que un agente explore hiperparámetros, arquitecturas u optimizaciones mientras usted duerme o se enfoca en ideas de alto nivel. i Demostración educativa: Comprenda los flujos de trabajo de IA agentica en un contexto real y ejecutable de ML.
- Enjambres distribuidos: Las extensiones comunitarias permiten que múltiples agentes o máquinas colaboren (por ejemplo, proyectos autoresearch@home).
- Prototipado rápido: Pruebe ideas para el descubrimiento científico autónomo en entrenamiento de LLM a pequeña escala. . Evaluación de capacidades del agente: Evalúe qué tan bien diferentes LLMs se desempeñan como investigadores autónomos.
Comenzando
Clona el repositorio, instala las dependencias mediante pyproject.toml, configura tu proveedor de IA (claves API), prepara un archivo program.md con tus instrucciones de investigación y lanza el bucle del agente. Funciona en una sola GPU y requiere una configuración mínima.
El repositorio incluye una línea base program.md que se puede iterar para obtener mejores resultados.
Por qué es importante
autoresearch representa un vistazo temprano de un futuro donde los agentes de IA manejan el trabajo pesado de la investigación empírica, liberando a los humanos para la dirección creativa. Ha generado un enorme interés en la comunidad, bifurcaciones, adaptaciones (AMD, Apple Silicon, etc.), y discusiones sobre enjambres de agentes y la "singularidad temprana" de la ciencia automatizada.
Limitaciones
- Los experimentos comienzan desde cero cada vez (sin memoria persistente entre ejecuciones en la versión base).
- Se centra en una sola métrica simple y modelos pequeños.
- El éxito depende en gran medida de la calidad del agente de codificación subyacente y de la ingeniería de prompts.
Para obtener los últimos detalles, código y debates de la comunidad, visita el repositorio oficial en GitHub.