什麼是UI-TARS?字節跳動開源圖形用戶界面代理,性能超越Claude與GPT-4o

核心要點
-s UI-TARS 代表 使用者介面 — 任務自動化與推理系統,是位元組跳動(TikTok 母公司)開發的一款開源 原生圖形使用者介面代理。 -s 它是一個多模態視覺語言模型,僅感知 螢幕截圖,並在桌面、瀏覽器和行動裝置環境中執行類似人類的滑鼠、鍵盤和捲動操作。
- 與依賴商業模型、需繁重提示的框架不同,UI-TARS 是一個 端到端訓練的模型,融合了系統-2 推理、統一動作建模和反思式線上學習。
- UI-TARS-1.5(2025 年 4 月發布)在 10 多個 GUI 基準測試中取得領先成果,包括 OSWorld (24.6@50 步) 和 AndroidWorld (46.6),超越了 Claude 3.7 和 GPT-4o。 . 提供多種尺寸版本(建議本地執行使用 7B 版本),配備專用的 UI-TARS Desktop 應用程式和 MCP 整合,支援工具增強的工作流程。
什麼是 UI-TARS?
UI-TARS 是位元組跳動推出的開創性 原生 GUI 代理模型,專為自動化與圖形使用者介面互動而設計。它於 2025 年初發布,並在 2025 年 4 月更新為 UI-TARS-1.5 版本,代表著從模組化代理框架向統一、端到端視覺語言模型的轉變。
該模型將 原始螢幕截圖 作為其唯一的視覺輸入,並輸出精確的動作,例如滑鼠點擊(左鍵、右鍵、雙擊)、拖曳、鍵盤輸入、捲動以及複雜的操作序列——所有這些都不依賴於 DOM 存取、無障礙功能樹或預定義的 API。
這種僅依賴螢幕截圖的方法使得 UI-TARS 能夠高度通用於各種平台(Windows、macOS、Linux、Android、網頁瀏覽器),並且對於會破壞傳統自動化工具的 UI 變更具有強大的適應性。
核心技術創新
UI-TARS 引入了多項突破性技術,解釋了其卓越性能的來源:
- 增強的感知能力:基於大量 GUI 螢幕截圖數據集進行訓練,以實現上下文感知理解和精確的元素標註。
- 統一動作建模:將不同平台上的動作標準化到單一的動作空間中,實現從視覺到低層級輸入(滑鼠座標、按鍵)的準確對應。
- 系統-2 推理:融入了深思熟慮的多步思考,包括任務分解、反思、里程碑識別和錯誤恢復,然後才採取行動。 . 利用反思式線上軌跡進行迭代訓練:使用數百台虛擬機器自動生成、篩選和精煉互動軌跡。模型透過反思式微調從自身錯誤中學習,僅需極少人工干預。
這些創新使得 UI-TARS 在推理時能夠有效擴展,並比依賴提示工程的代理更可靠地適應新穎的介面。
性能基準測試
官方評估分析顯示 UI-TARS-1.5 在多項 GUI 代理基準測試中持續領先:
- OSWorld:24.6(50步)和 22.7(15步)——表現優於 Claude(22.0 / 14.9)。
- AndroidWorld:46.6——超越 GPT-4o(34.5)。
- 在涵蓋感知、情境理解及完整任務執行的 10+ 個基準測試中均取得 SOTA 結果。
基準測試結果表明,相較於重度依賴外部工具調用或無障礙 API 的代理程式,視覺感知與內建推理的結合減少了長遠景任務中的錯誤累積。
UI-TARS 桌面與代理生態系統
ByteDance 除了基礎模型外,還提供了實用實現方案:
- UI-TARS Desktop:一款跨平台的 Electron 應用程式,可將模型轉化為原生桌面代理。用戶以自然語言下達指令,代理程式即可觀看螢幕並控制滑鼠/鍵盤。
- Agent TARS:一個更廣泛的多模態代理堆疊,支援終端機、瀏覽器及產品整合。
- MCP 整合:支援 Model Context Protocol,可與其他 MCP 伺服器(如資料庫、Linear 或 Playwright 工具)無縫結合,實現混合工作流程。
該桌面代理既支援本地推理(使用 Hugging Face 模型),也支援遠端操作,近期更新更增添了免費的遠端電腦與瀏覽器控制功能。
UI-TARS 與其他電腦使用代理的比較
| 代理程式 | 輸入類型 | 架構 | 開源 | 核心優勢 | 顯著基準測試優勢 |
|---|---|---|---|---|---|
| UI-TARS-1.5 | 僅螢幕截圖 | 端到端 VLM + 推理 | 是 | 泛化能力與反思 | OSWorld, AndroidWorld |
| Claude Computer Use | 螢幕截圖 + API | 提示 + 工具使用 | 否 | 安全性與生態系統 | 表現穩健但長任務較弱 |
| OpenAI Operator / CUA | 螢幕截圖 | 專有架構 | 否 | 與 ChatGPT 整合 | 具競爭力但封閉 |
| Anthropic Computer Use | 螢幕截圖 | Claude 3.5/3.7 骨幹 | 否 | 受控環境下的可靠性 | 評分低於 UI-TARS |
社群回饋顯示,在 UI 元素頻繁變動或缺乏完整無障礙元數據的開放式真實桌面任務中,UI-TARS 表現尤為出色。
使用情境與應用
- 桌面自動化:填寫表單、編輯文件、管理檔案,或執行複雜的軟體工作流程(例如 Photoshop 操作序列)。
- 瀏覽器任務:網頁爬取、表單提交、多步驟線上流程,無需依賴脆弱的選擇器。
- 行動裝置與遊戲自動化:與 Android 應用程式和虛擬遊戲環境進行互動。
- 開發與測試:生成並執行基於 GUI 的測試,或視覺化重現錯誤。
- 混合代理系統:與 MCP 伺服器結合,用於需要同時進行 GUI 操作和後端資料存取的工作。
進階技巧、特殊情境與常見陷阱
- 本地部署:7B 模型在消費級硬體上運行高效(尤其是透過 MLX 在 Apple Silicon 上運行的量化版本)。使用 LM Studio 或 Ollama 相容的設置進行零成本推論。
- 安全考量:運行完整的桌面代理需謹慎進行沙箱隔離。在敏感環境中限制權限並監控操作。
- 長時序任務:在提示中提供清晰的里程碑,以發揮模型的反思能力。迭代式的自我糾正能顯著提高成功率。
- 應避免的陷阱:
- 對於高度動態的 UI 過度依賴單一螢幕截圖(應與短期記憶或 MCP 工具結合使用)。
- 忽略平台特定的操作細節(例如,不同螢幕解析度間的座標縮放問題)。
- 在未經微調的情況下,期望在高度客製化或低對比度的介面上獲得完美效能。
為獲得最佳效果,請將 UI-TARS 與包含任務分解和成功標準的結構化提示搭配使用。
開始使用
- 造訪官方 GitHub 儲存庫:模型請至 bytedance/UI-TARS ,桌面應用程式請至 bytedance/UI-TARS-desktop 。
- 從 Hugging Face (ByteDance-Seed/UI-TARS-1.5-7B) 下載模型。
- 進行快速測試,可嘗試桌面應用程式或基於瀏覽器的演示。
- 探索 MCP 整合,以建構更先進的工具使用代理。
結論
UI-TARS 在 GUI 自動化領域標誌著重大進步,它提供了一個真正原生、開源的代理,能像人類一樣觀察螢幕並在行動前進行推理。其出色的基準測試表現、反思學習能力以及實用的桌面實作,使其成為 2026 年封閉商業電腦使用代理的領先替代方案。
希望自動化重複性 GUI 任務或建構更強大的多模態代理的開發者和進階使用者,應立即探索 UI-TARS。從 7B 模型和桌面應用程式開始,親身體驗基於螢幕截圖的自動化,然後利用 MCP 工具擴展它以用於生產工作流程。