Back to Blog
BlogApril 6, 20262

UI-TARS क्या है? बाइटडांस का ओपन-सोर्स GUI एजेंट क्लॉड और GPT-4o से बेहतर प्रदर्शन कर रहा है

UI-TARS क्या है? बाइटडांस का ओपन-सोर्स GUI एजेंट क्लॉड और GPT-4o से बेहतर प्रदर्शन कर रहा है

मुख्य बातें

  • UI-TARS का पूरा नाम User Interface — Task Automation and Reasoning System है, जो ByteDance (TikTok की मूल कंपनी) द्वारा विकसित एक ओपन-सोर्स नेटिव GUI एजेंट है।
  • यह एक मल्टीमॉडल विजन-लैंग्वेज मॉडल (VLM) है जो केवल स्क्रीनशॉट्स का विश्लेषण करता है और डेस्कटॉप, ब्राउज़र और मोबाइल वातावरणों में मानव जैसे माउस, कीबोर्ड और स्क्रॉल एक्शन करता है।
  • कॉमर्शियल मॉडल्स पर भारी निर्भरता वाले प्रॉम्प्ट-केंद्रित फ्रेमवर्क्स के विपरीत, UI-TARS एक एंड-टू-एंड प्रशिक्षित मॉडल है जिसमें सिस्टम-2 रीजनिंग, एकीकृत एक्शन मॉडलिंग और रिफ्लेक्टिव ऑनलाइन लर्निंग शामिल हैं।
  • UI-TARS-1.5 (अप्रैल 2025 में रिलीज़) ने 10+ GUI बेंचमार्क्स पर अत्याधुनिक परिणाम हासिल किए, जिसमें OSWorld (24.6@50 स्टेप्स) और AndroidWorld (46.6) शामिल हैं, जो Claude 3.7 और GPT-4o से आगे हैं।
  • यह कई आकारों में उपलब्ध है (लोकल रन के लिए 7B की सिफारिश की गई है) और इसमें एक समर्पित UI-TARS डेस्कटॉप एप्लिकेशन और टूल-ऑगमेंटेड वर्कफ्लो के लिए MCP इंटीग्रेशन है।

UI-TARS क्या है?

UI-TARS ByteDance का अग्रणी नेटिव GUI एजेंट मॉडल है जिसे ग्राफिकल यूजर इंटरफेस के साथ स्वचालित इंटरैक्शन के लिए डिज़ाइन किया गया है। इसे 2025 की शुरुआत में रिलीज़ किया गया था और UI-TARS-1.5 अपडेट अप्रैल 2025 में आया, यह मॉड्यूलर एजेंट फ्रेमवर्क्स से एकीकृत, एंड-Bटू-एंड विजन-Sलैंग्वेज मॉडल की ओर बदलाव का प्रतिनिधित्व करता है।

यह मॉडल कच्चे स्क्रीनशॉट्स को अपने एकमात्र विजुअल इनपुट के रूप में लेता है और सटीक क्रियाएं जैसे माउस क्लिक (बायाँ, दायाँ, डबल), ड्रैग्स, कीबोर्ड इनपुट, स्क्रॉलिंग और जटिल क्रम आउटपुट करता है — यह सब DOM एक्सेस, एक्सेसिबिलिटी ट्री या पूर्व-निर्धारित API पर निर्भर किए बिना करता है।

यह स्क्रीनशॉट-केवल दृष्टिकोण UI-TARS को प्लेटफॉर्म्स (Windows, macOS, Linux, Android, वेब ब्राउज़र) में अत्यधिक सामान्यीकरण योग्य और UI में परिवर्तन के प्रति मजबूत बनाता है जो पारंपरिक ऑटोमेशन टूल्स को तोड़ देते हैं।

मुख्य तकनीकी नवाचार

UI-TARS कई सफलताएं प्रस्तुत करता है जो इसके श्रेष्ठ प्रदर्शन की व्याख्या करती हैं:

  • उन्नत धारणा: संदर्भ-जागरूक समझ और सटीक तत्व कैप्शनिंग के लिए विशाल GUI स्क्रीनशॉट डेटासेट पर प्रशिक्षित।
  • एकीकृत कार्रवाई मॉडलिंग: प्लेटफॉर्म्स में क्रियाओं को एक ही स्पेस में मानकीकृत करता है, जिससे विज़न से लो-लेवल इनपुट (माउस निर्देशांक, कुंजी प्रेस) तक सटीक ग्राउंडिंग संभव होती है।
  • सिस्टम-2 तर्क: जानबूझकर बहु-चरण सोच को शामिल करता है, जिसमें कार्य विघटन, परावर्तन, मील के पत्थर की पहचान और कार्य करने से पहले त्रुटि पुनर्प्राप्ति शामिल हैं।
  • परावर्तक ऑनलाइन ट्रेस के साथ पुनरावृत्त प्रशिक्षण: इंटरैक्शन ट्रेस को स्वचालित रूप से उत्पन्न करने, फ़िल्टर करने और परिष्कृत करने के लिए सैकड़ों वर्चुअल मशीनों का उपयोग करता है। मॉडल न्यूनतम मानवीय हस्तक्षेप के साथ परावर्तन ट्यूनिंग के माध्यम से अपनी गलतियों से सीखता है।

ये नवाचार UI-TARS को अनुमान के समय प्रभावी ढंग से स्केल करने और नए इंटरफेस के लिए प्रॉम्प्ट-इंजीनियर्ड एजेंट की तुलना में अधिक विश्वसनीय रूप से अनुकूलित करने की अनुमति देते हैं।

प्रदर्शन बेंचमार्क

आधिकारिक मूल्यांकनों के विश्लेषण से पता चलता है कि UI-TARS-1.5 लगातार GUI एजेंट बेंचमार्क में अग्रणी है:

  • OSWorld: 24.6 (50 चरणों पर) और 22.7 (15 चरणों पर) — Claude (22.0 / 14.9) से बेहतर प्रदर्शन।
  • AndroidWorld: 46.6 — GPT-4o (34.5) से आगे।
  • दृष्टि, आधारभूतता और पूर्ण कार्य निष्पादन को कवर करते हुए 10+ बेंचमार्क पर अतिरिक्त SOTA परिणाम।

बेंचमार्क संकेत देते हैं कि विज़न–आधारित दृष्टि और अंतर्निहित तर्क का संयोजन, लंबी दृष्टि वाले कार्यों में त्रुटि संचय को कम करता है, उन एजेंटों की तुलना में जो बाह्य टूल कॉलिंग या पहुंच API पर बहुत अधिक निर्भर करते हैं।

UI-TARS डेस्कटॉप और एजेंट इकोसिस्टम

ByteDance बेस मॉडल से परे व्यावहारिक कार्यान्वयन प्रदान करता है:

  • UI-TARS डेस्कटॉप: एक क्रॉस–प्लेटफॉर्म Electron एप्लिकेशन जो मॉडल को एक नेटिव डेस्कटॉप एजेंट में बदल देता है। उपयोगकर्ता प्राकृतिक भाषा निर्देश देते हैं, और एजेंट स्क्रीन देखता है तथा माउस/कीबोर्ड को नियंत्रित करता है।
  • एजेंट TARS: एक व्यापक मल्टीमॉडल एजेंट स्टैक जो टर्मिनल, ब्राउज़र और उत्पाद एकीकरण का समर्थन करता है।
  • MCP एकीकरण: मॉडल कॉन्टेक्स्ट प्रोटोकॉल का समर्थन करता है, जो हाइब्रिड वर्कफ़्लो के लिए अन्य MCP सर्वर (जैसे डेटाबेस, Linear, या Playwright टूल) के साथ सहज संयोजन की अनुमति देता है।

डेस्कटॉप एजेंट स्थानीय अनुमान (Hugging Face से मॉडल का उपयोग करके) और दूरस्थ संचालन दोनों का समर्थन करता है, हाल के अपडेट ने मुफ्त दूरस्थ कंप्यूटर और ब्राउज़र नियंत्रण सुविधाएँ जोड़ी हैं।

UI-TARS अन्य कंप्यूटर–उपयोग एजेंटों की तुलना में कैसा है

एजेंटइनपुट प्रकारआर्किटेक्चरओपन सोर्समुख्य शक्तिउल्लेखनीय बेंचमार्क बढ़त
UI-TARS-1.5केवल स्क्रीनशॉटएंड–टू–एंड VLM + रीज़निंगहाँसामान्यीकरण और प्रतिबिंबOSWorld, AndroidWorld
Claude Computer Useस्क्रीनशॉट + APIप्रॉम्प्टेड + टूल यूज़नहींसुरक्षा और इकोसिस्टममजबूत लेकिन लंबे कार्यों पर कमजोर
OpenAI Operator / CUAस्क्रीनशॉटप्रोप्राइटरीनहींChatGPT के साथ एकीकरणप्रतिस्पर्धी लेकिन बंद
Anthropic Computer Useस्क्रीनशॉटClaude 3.5/3.7 बैकबोननहींनियंत्रित वातावरण में विश्वसनीयताUI-TARS से कम स्कोर

सामुदायिक प्रतिक्रिया से पता चलता है कि UI-TARS खुले–समाप्त, वास्तविक–विश्व डेस्कटॉप कार्यों में उत्कृष्ट है जहाँ UI तत्व अक्सर बदलते हैं या स्वच्छ पहुंच मेटाडेटा का अभाव होता है।

उपयोग के मामले और अनुप्रयोग

  • डेस्कटॉप स्वचालन: फॉर्म भरना, दस्तावेज़ संपादित करना, फ़ाइलें प्रबंधित करना, या जटिल सॉफ़्टवेयर वर्कफ़्लो चलाना (उदा., फ़ोटोशॉप अनुक्रम)।
  • ब्राउज़र कार्य: वेब स्क्रैपिंग, फॉर्म सबमिशन, भंगुर चयनकर्ताओं के बिना बहु-चरण ऑनलाइन प्रक्रियाएँ।
  • मोबाइल और गेम स्वचालन: Android ऐप्स और आभासी गेम वातावरण के साथ इंटरैक्ट करना।
  • विकास और परीक्षण: GUI-आधारित टेस्ट जनरेट करना और निष्पादित करना या दृश्य रूप से बग्स को पुन: उत्पन्न करना।
  • हाइब्रिड एजेंट सिस्टम: GUI एक्शन और बैकएंड डेटा एक्सेस दोनों की आवश्यकता वाले कार्यों के लिए MCP सर्वरों के साथ संयोजन।

उन्नत सुझाव, किनारे के मामले और सामान्य खामियाँ

  • स्थानीय तैनाती: 7B मॉडल उपभोक्ता हार्डवेयर पर कुशलता से चलता है (विशेष रूप से Apple Silicon पर MLX के माध्यम से क्वांटाइज्ड संस्करण)। शून्य-लागत अनुमान के लिए LM Studio या Ollama-संगत सेटअप का उपयोग करें।
  • सुरक्षा विचार: एक पूर्ण डेस्कटॉप एजेंट चलाने के लिए सावधानीपूर्वक सैंडबॉक्सिंग की आवश्यकता होती है। संवेदनशील वातावरण में अनुमतियाँ सीमित करें और कार्यों की निगरानी करें।
  • लंबी-क्षितिज कार्य: प्रॉम्प्ट में स्पष्ट मील के पत्थर प्रदान करके मॉडल की चिंतन क्षमताओं का लाभ उठाएं। पुनरावृत्ति आत्म-सुधार सफलता दर को काफी बढ़ाता है।
  • बचने योग्य खामियाँ:
    • अत्यधिक गतिशील UI के लिए एकल स्क्रीनशॉट पर अत्यधिक भरोसा करना (अल्पकालिक स्मृति या MCP टूल्स के साथ संयोजन करें)।
    • प्लेटफ़ॉर्म.विशिष्ट कार्य सूक्ष्मताओं की अनदेखी करना (उदा., विभिन्न स्क्रीन रिज़ॉल्यूशन में समन्वय स्केलिंग)।
    • बिना फ़ाइन-ट्यूनिंग के अत्यधिक अनुकूलित या कम-विपरीत इंटरफ़ेस पर उत्तम प्रदर्शन की अपेक्षा करना।

सर्वोत्तम परिणामों के लिए, UI-TARS को संरचित प्रॉम्प्ट के साथ जोड़ें जिनमें कार्य अपघटन और सफलता मानदंड शामिल हों।

आरंभ करना

  1. आधिकारिक GitHub रिपॉजिटरीज़ पर जाएँ: मॉडल के लिए bytedance/UI-TARS और डेस्कटॉप अनुप्रयोग के लिए bytedance/UI-TARS-desktop
  2. Hugging Face (ByteDance-Seed/UI-TARS-1.5-7B) से मॉडल डाउनलोड करें।
  3. त्वरित परीक्षण के लिए, डेस्कटॉप ऐप या ब्राउज़र-आधारित डेमो आज़माएँ।
  4. उन्नत टूल-उपयोग करने वाले एजेंट के लिए MCP एकीकरण का अन्वेषण करें।

निष्कर्ष

UI-TARS GUI स्वचालन में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है जो एक वास्तविक मूल, ओपन-सॉर्स एजेंट प्रदान करता है जो स्क्रीन को मनुष्य की तरह देखता है और कार्य करने से पहले तर्क करता है। इसका मजबूत बेंचमार्क प्रदर्शन, चिंतनशील शिक्षण और व्यावहारिक डेस्कटॉप कार्यान्वयन इसे 2026 में बंद वाणिज्यिक कंप्यूटर.

दोहराए जाने वाले GUI कार्यों को स्वचालित करने या अधिक सक्षम मल्टीमॉडल एजेंट बनाने की तलाश करने वाले डेवलपर्स और शक्ति उपयोगकर्ताओं को आज ही UI-TARS का अन्वेषण करना चाहिए। स्क्रीनशॉट-संचालित स्वचालन का प्रत्यक्ष अनुभव करने के लिए 7B मॉडल और डेस्कटॉप अनुप्रयोग से प्रारंभ करें, फिर उत्पादन वर्कफ़्लो के लिए इसे MCP टूल्स के साथ विस्तारित करें।

Share this article