
autoresearch
आंद्रेज कारपेथी का ओपन-सोर्स AI एजेंट जो एकल GPU पर स्वायत्त रूप से रात भर LLM ट्रेनिंग प्रयोग चलाता है, कोड संपादित करता है, सुधारों का मूल्यांकन करता है, और आपके सोते समय पुनरावृत्ति करता है।
अवलोकन
autoresearch एंड्रेज कार्पैथी द्वारा एक प्रायोगिक ओपन-सोर्स प्रोजेक्ट है, जो वास्तविक मशीन लर्निंग शोध में स्वायत्त AI एजेंटों की शक्ति प्रदर्शित करता है। यह एक सरलीकृत nanochat कार्यान्वयन पर आधारित एक न्यूनतम, सिंगल-जीपीयू प्रशिक्षण हार्नेस प्रदान करता है, जहाँ एक AI कोडिंग एजेंट प्रयोग लूप पर पूर्ण नियंत्रण लेता है।
मैन्युअल रूप से पायथन कोड में बदलाव करने के बजाय, शोधकर्ता एक program.md मार्कडाउन फ़ाइल में उच्च-cस्तरीय निर्देश लिखते हैं। एजेंट तब प्रशिक्षण स्क्रिप्ट (train.py) को पुनरावृत्त रूप से संपादित करता है, निर्धारित-समय (आमतौर पर 5-मिनट) के प्रशिक्षण प्रयोग चलाता है, एक वैलिडेशन मेट्रिक (जैसे, val_bpb) के आधार पर सुधारों का मूल्यांकन करता है, और केवल विजयी परिवर्तनों को एक Git फ़ीचर ब्रांच में कमिट करता है।
प्रमुख विशेषताएँ
- स्वायत्त एजेंट लूप: AI एजेंट प्रयोगों की योजना बनाता है, कोड (आर्किटेक्चर, हाइपरपैरामीटर्स, ऑप्टिमाइज़र आदि) संशोधित करता है, प्रशिक्षण चलाता है, और निर्णय लेता है कि क्या रखना है।
- सिंगल-जीपीयू दक्षता: सुलभ हार्डवेयर के लिए डिज़ाइन किया गया; प्रत्येक प्रयोग एक निर्धारित कम अवधि (~5 मिनट) के लिए चलता है, जिससे प्रति घंटे ~12 प्रयोग संभव होते हैं।
- Git-आधारित वर्ज़निंग: सुधार एक फ़ीचर ब्रांच पर कमिट्स के माध्यम से ट्रैक किए जाते हैं, जिससे परिवर्तनों की समीक्षा और उन्हें पूर्ववत करना आसान हो जाता है।
- न्यूनतम सेटअप: एक छोटा कोडबेस (~630 - 1000 लाइनें कुछ फ़ाइलों में) जो वस्तुनिष्ठ मूल्यांकन के लिए एक स्पष्ट मेट्रिक पर केंद्रित है।
- प्रॉम्प्ट्स के माध्यम से मानवीय निरीक्षण: उपयोगकर्ता मार्कडाउन में प्राकृतिक भाषा निर्देशों के माध्यम से "शोध संगठन" को परिभाषित करते हैं, जिससे निम्न-स्तरीय कोड को छुए बिना परिष्कृत एजेंट व्यवहार संभव होते हैं।
- विस्तार योग्य: अधिक एजेंट जोड़ना, program.md प्रॉम्प्ट सुधारना, या विभिन्न मॉडल/कार्यों के लिए अनुकूलित करना आसान है।
यह कैसे काम करता है
- उपयोगकर्ता रेपो सेटअप करता है और
program.mdमें एक शोध लक्ष्य प्रदान करता है। - एक AI कोडिंग एजेंट (जैसे, Claude, GPT, या स्थानीय मॉडलों द्वारा संचालित) लॉन्च किया जाता है।
- एजेंट एक Git फ़ीचर ब्रांच बनाता है/उपयोग करता है और पुनरावृत्ति शुरू करता है:
train.pyको संपादित करता है।- एक समयबद्ध प्रशिक्षण प्रयोग चलाता है।
- प्रमुख वैलिडेशन मेट्रिक को मापता है।
- यदि सुधार हुआ, तो परिवर्तन को कमिट करता है; अन्यथा, छोड़ देता है और फिर से प्रयास करता है।
- रात भर या कुछ दिनों में, सिस्टम दर्जनों से सैकड़ों प्रयोगों को संचित करता है, बेहतर मॉडल कॉन्फ़िगरेशन सामने लाता है।
यह प्रोजेक्ट मानवीय हस्तक्षेप के बिना दीर्घकालिक शोध वेग को अधिकतम करने के लिए एजेंट प्रॉम्प्ट ("शोध संगठन कोड") के इंजीनियरिंग पर जोर देता है।
उपयोग के मामले
- व्यक्तिगत ML शोध: जब आप सो रहे हों या उच्च-स्तरीय विचारों पर ध्यान केंद्रित कर रहे हों, तब एक एजेंट को हाइपरपैरामीटर्स, आर्किटेक्चर, या ऑप्टिमाइज़ेशन का अन्वेषण करने दें।
- शैक्षिक डेमो: एक वास्तविक, चलाने योग्य ML संदर्भ में एजेंटिक AI वर्कफ़्लोज़ को समझें।
- वितरित स्वार्म: सामुदायिक एक्सटेंशन कई एजेंटों या मशीनों को सहयोग करने में सक्षम बनाते हैं (जैसे, autoresearch@home प्रोजेक्ट्स)।
- त्वरित प्रोटोटाइपिंग: छोटे-स्तर के LLM प्रशिक्षण में स्वायत्त वैज्ञानिक खोज के लिए विचारों का परीक्षण करें।
एजेंट क्षमताओं का बेंचमार्किंग: मूल्यांकन करें कि विभिन्न LLMs स्वायत्त शोधकर्ताओं के रूप में कितना अच्छा प्रदर्शन करते हैं।
शुरुआत करें
रिपॉजिटरी को क्लोन करें, pyproject.toml के माध्यम से डिपेंडेंसीज़ इंस्टॉल करें, अपने AI प्रदाता (API कुंजी) को कॉन्फ़िगर करें, अपने शोध निर्देशों के साथ एक program.md तैयार करें, और एजेंट लूप लॉन्च करें। यह एक सिंगल GPU पर चलता है और न्यूनतम सेटअप की आवश्यकता होती है।
रिपॉ में एक बेसलाइन program.md शामिल है जिसे बेहतर परिणामों के लिए इटरेट किया जा सकता है।
यह महत्वपूर्ण क्यों है
autoresearch एक ऐसे भविष्य की पहली झलक प्रस्तुत करता है जहाँ AI एजेंट अनुभवजन्य शोध का कठिन कार्य संभालते हैं, जिससे मानव रचनात्मक दिशा के लिए स्वतंत्र हो जाते हैं। इसने विशाल समुदायिक रुचि, फोर्क्स, पोर्ट्स (AMD, Apple Silicon, आदि), और एजेंट स्वार्म तथा स्वचालित विज्ञान की "प्रारंभिक सिंगुलैरिटी" के आसपास चर्चाएँ जगाई हैं।
सीमाएँ
- प्रयोग हर बार स्क्रैच से शुरू होते हैं (बेस वर्ज़न में रन्स के बीच कोई स्थायी मेमोरी नहीं)।
- एक सिंगल, सरल मैट्रिक और छोटे मॉडल्स पर केंद्रित।
- सफलता मूलभूत कोडिंग एजेंट की गुणवत्ता और प्रॉम्प्ट इंजीनियरिंग पर बहुत अधिक निर्भर करती है।
नवीनतम विवरण, कोड, और समुदाय चर्चाओं के लिए, आधिकारिक GitHub रिपॉजिटरी पर जाएँ।