UI-TARS क्या है? बाइटडांस ओपन9-सोर्स GUI एजेंट डेस्कटॉप और ब्राउज़र ऑटोमेशन 2026 के लिए

मुख्य बातें

UI-TARS का पूरा नाम User Interface — Task Automation and Reasoning System है, जो ByteDance (TikTok की मूल कंपनी) द्वारा विकसित एक ओपन-सोर्स नेटिव GUI एजेंट है।
यह एक मल्टीमॉडल विजन-लैंग्वेज मॉडल (VLM) है जो केवल स्क्रीनशॉट्स का विश्लेषण करता है और डेस्कटॉप, ब्राउज़र और मोबाइल वातावरणों में मानव जैसे माउस, कीबोर्ड और स्क्रॉल एक्शन करता है।
कॉमर्शियल मॉडल्स पर भारी निर्भरता वाले प्रॉम्प्ट-केंद्रित फ्रेमवर्क्स के विपरीत, UI-TARS एक एंड-टू-एंड प्रशिक्षित मॉडल है जिसमें सिस्टम-2 रीजनिंग, एकीकृत एक्शन मॉडलिंग और रिफ्लेक्टिव ऑनलाइन लर्निंग शामिल हैं।
UI-TARS-1.5 (अप्रैल 2025 में रिलीज़) ने 10+ GUI बेंचमार्क्स पर अत्याधुनिक परिणाम हासिल किए, जिसमें OSWorld (24.6@50 स्टेप्स) और AndroidWorld (46.6) शामिल हैं, जो Claude 3.7 और GPT-4o से आगे हैं।
यह कई आकारों में उपलब्ध है (लोकल रन के लिए 7B की सिफारिश की गई है) और इसमें एक समर्पित UI-TARS डेस्कटॉप एप्लिकेशन और टूल-ऑगमेंटेड वर्कफ्लो के लिए MCP इंटीग्रेशन है।

UI-TARS क्या है?

UI-TARS ByteDance का अग्रणी नेटिव GUI एजेंट मॉडल है जिसे ग्राफिकल यूजर इंटरफेस के साथ स्वचालित इंटरैक्शन के लिए डिज़ाइन किया गया है। इसे 2025 की शुरुआत में रिलीज़ किया गया था और UI-TARS-1.5 अपडेट अप्रैल 2025 में आया, यह मॉड्यूलर एजेंट फ्रेमवर्क्स से एकीकृत, एंड-Bटू-एंड विजन-Sलैंग्वेज मॉडल की ओर बदलाव का प्रतिनिधित्व करता है।

यह मॉडल कच्चे स्क्रीनशॉट्स को अपने एकमात्र विजुअल इनपुट के रूप में लेता है और सटीक क्रियाएं जैसे माउस क्लिक (बायाँ, दायाँ, डबल), ड्रैग्स, कीबोर्ड इनपुट, स्क्रॉलिंग और जटिल क्रम आउटपुट करता है — यह सब DOM एक्सेस, एक्सेसिबिलिटी ट्री या पूर्व-निर्धारित API पर निर्भर किए बिना करता है।

यह स्क्रीनशॉट-केवल दृष्टिकोण UI-TARS को प्लेटफॉर्म्स (Windows, macOS, Linux, Android, वेब ब्राउज़र) में अत्यधिक सामान्यीकरण योग्य और UI में परिवर्तन के प्रति मजबूत बनाता है जो पारंपरिक ऑटोमेशन टूल्स को तोड़ देते हैं।

मुख्य तकनीकी नवाचार

UI-TARS कई सफलताएं प्रस्तुत करता है जो इसके श्रेष्ठ प्रदर्शन की व्याख्या करती हैं:

उन्नत धारणा: संदर्भ-जागरूक समझ और सटीक तत्व कैप्शनिंग के लिए विशाल GUI स्क्रीनशॉट डेटासेट पर प्रशिक्षित।
एकीकृत कार्रवाई मॉडलिंग: प्लेटफॉर्म्स में क्रियाओं को एक ही स्पेस में मानकीकृत करता है, जिससे विज़न से लो-लेवल इनपुट (माउस निर्देशांक, कुंजी प्रेस) तक सटीक ग्राउंडिंग संभव होती है।
सिस्टम-2 तर्क: जानबूझकर बहु-चरण सोच को शामिल करता है, जिसमें कार्य विघटन, परावर्तन, मील के पत्थर की पहचान और कार्य करने से पहले त्रुटि पुनर्प्राप्ति शामिल हैं।
परावर्तक ऑनलाइन ट्रेस के साथ पुनरावृत्त प्रशिक्षण: इंटरैक्शन ट्रेस को स्वचालित रूप से उत्पन्न करने, फ़िल्टर करने और परिष्कृत करने के लिए सैकड़ों वर्चुअल मशीनों का उपयोग करता है। मॉडल न्यूनतम मानवीय हस्तक्षेप के साथ परावर्तन ट्यूनिंग के माध्यम से अपनी गलतियों से सीखता है।

ये नवाचार UI-TARS को अनुमान के समय प्रभावी ढंग से स्केल करने और नए इंटरफेस के लिए प्रॉम्प्ट-इंजीनियर्ड एजेंट की तुलना में अधिक विश्वसनीय रूप से अनुकूलित करने की अनुमति देते हैं।

प्रदर्शन बेंचमार्क

आधिकारिक मूल्यांकनों के विश्लेषण से पता चलता है कि UI-TARS-1.5 लगातार GUI एजेंट बेंचमार्क में अग्रणी है:

OSWorld: 24.6 (50 चरणों पर) और 22.7 (15 चरणों पर) — Claude (22.0 / 14.9) से बेहतर प्रदर्शन।
AndroidWorld: 46.6 — GPT-4o (34.5) से आगे।
दृष्टि, आधारभूतता और पूर्ण कार्य निष्पादन को कवर करते हुए 10+ बेंचमार्क पर अतिरिक्त SOTA परिणाम।

बेंचमार्क संकेत देते हैं कि विज़न–आधारित दृष्टि और अंतर्निहित तर्क का संयोजन, लंबी दृष्टि वाले कार्यों में त्रुटि संचय को कम करता है, उन एजेंटों की तुलना में जो बाह्य टूल कॉलिंग या पहुंच API पर बहुत अधिक निर्भर करते हैं।

UI-TARS डेस्कटॉप और एजेंट इकोसिस्टम

ByteDance बेस मॉडल से परे व्यावहारिक कार्यान्वयन प्रदान करता है:

UI-TARS डेस्कटॉप: एक क्रॉस–प्लेटफॉर्म Electron एप्लिकेशन जो मॉडल को एक नेटिव डेस्कटॉप एजेंट में बदल देता है। उपयोगकर्ता प्राकृतिक भाषा निर्देश देते हैं, और एजेंट स्क्रीन देखता है तथा माउस/कीबोर्ड को नियंत्रित करता है।
एजेंट TARS: एक व्यापक मल्टीमॉडल एजेंट स्टैक जो टर्मिनल, ब्राउज़र और उत्पाद एकीकरण का समर्थन करता है।
MCP एकीकरण: मॉडल कॉन्टेक्स्ट प्रोटोकॉल का समर्थन करता है, जो हाइब्रिड वर्कफ़्लो के लिए अन्य MCP सर्वर (जैसे डेटाबेस, Linear, या Playwright टूल) के साथ सहज संयोजन की अनुमति देता है।

डेस्कटॉप एजेंट स्थानीय अनुमान (Hugging Face से मॉडल का उपयोग करके) और दूरस्थ संचालन दोनों का समर्थन करता है, हाल के अपडेट ने मुफ्त दूरस्थ कंप्यूटर और ब्राउज़र नियंत्रण सुविधाएँ जोड़ी हैं।

UI-TARS अन्य कंप्यूटर–उपयोग एजेंटों की तुलना में कैसा है

एजेंट	इनपुट प्रकार	आर्किटेक्चर	ओपन सोर्स	मुख्य शक्ति	उल्लेखनीय बेंचमार्क बढ़त
UI-TARS-1.5	केवल स्क्रीनशॉट	एंड–टू–एंड VLM + रीज़निंग	हाँ	सामान्यीकरण और प्रतिबिंब	OSWorld, AndroidWorld
Claude Computer Use	स्क्रीनशॉट + API	प्रॉम्प्टेड + टूल यूज़	नहीं	सुरक्षा और इकोसिस्टम	मजबूत लेकिन लंबे कार्यों पर कमजोर
OpenAI Operator / CUA	स्क्रीनशॉट	प्रोप्राइटरी	नहीं	ChatGPT के साथ एकीकरण	प्रतिस्पर्धी लेकिन बंद
Anthropic Computer Use	स्क्रीनशॉट	Claude 3.5/3.7 बैकबोन	नहीं	नियंत्रित वातावरण में विश्वसनीयता	UI-TARS से कम स्कोर

सामुदायिक प्रतिक्रिया से पता चलता है कि UI-TARS खुले–समाप्त, वास्तविक–विश्व डेस्कटॉप कार्यों में उत्कृष्ट है जहाँ UI तत्व अक्सर बदलते हैं या स्वच्छ पहुंच मेटाडेटा का अभाव होता है।

उपयोग के मामले और अनुप्रयोग

डेस्कटॉप स्वचालन: फॉर्म भरना, दस्तावेज़ संपादित करना, फ़ाइलें प्रबंधित करना, या जटिल सॉफ़्टवेयर वर्कफ़्लो चलाना (उदा., फ़ोटोशॉप अनुक्रम)।
ब्राउज़र कार्य: वेब स्क्रैपिंग, फॉर्म सबमिशन, भंगुर चयनकर्ताओं के बिना बहु-चरण ऑनलाइन प्रक्रियाएँ।
मोबाइल और गेम स्वचालन: Android ऐप्स और आभासी गेम वातावरण के साथ इंटरैक्ट करना।
विकास और परीक्षण: GUI-आधारित टेस्ट जनरेट करना और निष्पादित करना या दृश्य रूप से बग्स को पुन: उत्पन्न करना।
हाइब्रिड एजेंट सिस्टम: GUI एक्शन और बैकएंड डेटा एक्सेस दोनों की आवश्यकता वाले कार्यों के लिए MCP सर्वरों के साथ संयोजन।

उन्नत सुझाव, किनारे के मामले और सामान्य खामियाँ

स्थानीय तैनाती: 7B मॉडल उपभोक्ता हार्डवेयर पर कुशलता से चलता है (विशेष रूप से Apple Silicon पर MLX के माध्यम से क्वांटाइज्ड संस्करण)। शून्य-लागत अनुमान के लिए LM Studio या Ollama-संगत सेटअप का उपयोग करें।
सुरक्षा विचार: एक पूर्ण डेस्कटॉप एजेंट चलाने के लिए सावधानीपूर्वक सैंडबॉक्सिंग की आवश्यकता होती है। संवेदनशील वातावरण में अनुमतियाँ सीमित करें और कार्यों की निगरानी करें।
लंबी-क्षितिज कार्य: प्रॉम्प्ट में स्पष्ट मील के पत्थर प्रदान करके मॉडल की चिंतन क्षमताओं का लाभ उठाएं। पुनरावृत्ति आत्म-सुधार सफलता दर को काफी बढ़ाता है।
बचने योग्य खामियाँ:
- अत्यधिक गतिशील UI के लिए एकल स्क्रीनशॉट पर अत्यधिक भरोसा करना (अल्पकालिक स्मृति या MCP टूल्स के साथ संयोजन करें)।
- प्लेटफ़ॉर्म.विशिष्ट कार्य सूक्ष्मताओं की अनदेखी करना (उदा., विभिन्न स्क्रीन रिज़ॉल्यूशन में समन्वय स्केलिंग)।
- बिना फ़ाइन-ट्यूनिंग के अत्यधिक अनुकूलित या कम-विपरीत इंटरफ़ेस पर उत्तम प्रदर्शन की अपेक्षा करना।

सर्वोत्तम परिणामों के लिए, UI-TARS को संरचित प्रॉम्प्ट के साथ जोड़ें जिनमें कार्य अपघटन और सफलता मानदंड शामिल हों।

आरंभ करना

आधिकारिक GitHub रिपॉजिटरीज़ पर जाएँ: मॉडल के लिए bytedance/UI-TARS और डेस्कटॉप अनुप्रयोग के लिए bytedance/UI-TARS-desktop।
Hugging Face (ByteDance-Seed/UI-TARS-1.5-7B) से मॉडल डाउनलोड करें।
त्वरित परीक्षण के लिए, डेस्कटॉप ऐप या ब्राउज़र-आधारित डेमो आज़माएँ।
उन्नत टूल-उपयोग करने वाले एजेंट के लिए MCP एकीकरण का अन्वेषण करें।

निष्कर्ष

UI-TARS GUI स्वचालन में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है जो एक वास्तविक मूल, ओपन-सॉर्स एजेंट प्रदान करता है जो स्क्रीन को मनुष्य की तरह देखता है और कार्य करने से पहले तर्क करता है। इसका मजबूत बेंचमार्क प्रदर्शन, चिंतनशील शिक्षण और व्यावहारिक डेस्कटॉप कार्यान्वयन इसे 2026 में बंद वाणिज्यिक कंप्यूटर.

दोहराए जाने वाले GUI कार्यों को स्वचालित करने या अधिक सक्षम मल्टीमॉडल एजेंट बनाने की तलाश करने वाले डेवलपर्स और शक्ति उपयोगकर्ताओं को आज ही UI-TARS का अन्वेषण करना चाहिए। स्क्रीनशॉट-संचालित स्वचालन का प्रत्यक्ष अनुभव करने के लिए 7B मॉडल और डेस्कटॉप अनुप्रयोग से प्रारंभ करें, फिर उत्पादन वर्कफ़्लो के लिए इसे MCP टूल्स के साथ विस्तारित करें।

UI-TARS क्या है? बाइटडांस का ओपन-सोर्स GUI एजेंट क्लॉड और GPT-4o से बेहतर प्रदर्शन कर रहा है

मुख्य बातें