Back to Blog
BlogApril 6, 20262

UI-TARS란 무엇인가요? 데스크톱과 브라우저 자동화를 위한 바이트댄스의 오픈소스 GUI 에이전트로 Claude와 GPT-4o를 능가하는 성능

UI-TARS란 무엇인가요? 데스크톱과 브라우저 자동화를 위한 바이트댄스의 오픈소스 GUI 에이전트로 Claude와 GPT-4o를 능가하는 성능

핵심 요약

  • UI-TARSUser Interface — Task Automation and Reasoning System의 약자로, ByteDance(틱톡의 모회사)가 개발한 오픈소스 네이티브 GUI 에이전트입니다.
  • 이는 다중모드 시각-언어 모델(VLM)로, 스크린샷만을 인식하여 데스크톱, 브라우저 및 모바일 환경에서 사람과 같은 마우스, 키보드, 스크롤 동작을 수행합니다.
  • 상용 모델에 의존하는 프롬프트 중심 프레임워크와 달리, UI-TARS는 종단 간 훈련된 모델로서 System-2 추론, 통합된 동작 모델링, 반성적 온라인 학습을 통합합니다.
  • UI-TARS-1.5(2025년 4월 출시)는 OSWorld (24.6@50 단계) 및 **AndroidWorld (46.6)**를 포함한 10개 이상의 GUI 벤치마크에서 최첨단 결과를 달성하며, Claude 3.7과 GPT-4o를 능가합니다.
  • 여러 크기로 제공되며(로컬 실행에는 7B 권장), 전용 UI-TARS 데스크톱 애플리케이션과 도구 보강 워크플로를 위한 MCP 통합이 포함됩니다.

UI-TARS란 무엇인가요?

UI-TARS는 ByteDance의 선도적인 네이티브 GUI 에이전트 모델로, 그래픽 사용자 인터페이스와의 자동화된 상호작용을 위해 설계되었습니다. 2025년 초에 출시되었으며 2025년 4월 UI-TARS-1.5 업데이트를 거쳤습니다. 이는 모듈식 에이전트 프레임워크에서 통합된 종단 간 시각-언어 모델로의 전환을 나타냅니다.

이 모델은 원본 스크린샷을 유일한 시각 입력으로 사용하고, 마우스 클릭(좌클릭, 우클릭, 더블클릭), 드래그, 키보드 입력, 스크롤 및 복잡한 동작 시퀀스와 같은 정밀한 동작을 출력합니다. 이 모든 동작은 DOM 접근, 접근성 트리, 또는 사전 정의된 API에 의존하지 않습니다.

이러한 스크린샷 전용 접근 방식은 UI-TARS를 플랫폼(Windows, macOS, Linux, Android, 웹 브라우저) 간에 높은 일반화 가능성으로 만들며, 전통적인 자동화 도구를 무력화시키는 UI 변경에 대해 강건합니다.

핵심 기술 혁신

UI-TARS는 탁월한 성능을 설명하는 몇 가지 돌파구를 도입합니다:

  • 향상된 인식: 컨텍스트 인식 이해와 정밀한 요소 캡셔닝을 위한 대규모 GUI 스크린샷 데이터셋으로 훈련되었습니다.

  • 통합된 동작 모델링: 플랫폼 전반에 걸친 동작을 단일 공간으로 표준화하여, 시각 정보에서 저수준 입력(마우스 좌표, 키 누름)으로의 정확한 정착을 가능하게 합니다. -- System-2 추론: 작업 분해, 반성, 마일스톤 인식 및 오류 복구를 포함한 의도적인 다단계 사고를 행동 전에 통합합니다.

  • 반성적 온라인 트레이스를 통한 반복적 훈련: 수백 개의 가상 머신을 사용하여 상호작용 트레이스를 자동으로 생성, 필터링 및 정제합니다. 이 모델은 최소한의 인간 개입으로 반성 튜닝을 통해 자신의 실수로부터 학습합니다.

이러한 혁신은 UI-TARS가 추론 시 효과적으로 확장되고, 프롬프트 엔지니어링된 에이전트보다 더 신뢰성 있게 새로운 인터페이스에 적응할 수 있도록 합니다.

성능 벤치마크

공식 평가 분석에 따르면, UI-TARS-1.5는 GUI 에이전트 벤치마크에서 지속적으로 선두를 달리고 있습니다:

  • OSWorld: 24.6점(50 단계) 및 22.7점(15 단계) — Claude(22.0 / 14.9)보다 성능이 우수합니다.
  • AndroidWorld: 46.6점 — GPT-4o(34.5)를 능가합니다.
  • 인식, 근거화, 전체 작업 실행을 포함한 10개 이상의 벤치마크에서 추가적인 SOTA 결과를 보입니다.

벤치마크는 시각 기반 인식과 내장 추론의 조합이 외부 도구 호출이나 접근성 API에 크게 의존하는 에이전트들에 비해 장기적인 작업에서 오류 누적을 줄인다는 점을 시사합니다.

UI-TARS 데스크톱 및 에이전트 생태계

ByteDance은 기본 모델을 넘어 실용적인 구현체를 제공합니다:

  • UI-TARS 데스크톱: 모델을 네이티브 데스크톱 에이전트로 전환하는 크로스 플랫폼 Electron 애플리케이션입니다. 사용자가 자연어 지시를 제공하면, 에이전트가 화면을 보고 마우스/키보드를 제어합니다.
  • Agent TARS: 터미널, 브라우저 및 제품 통합을 지원하는 더 광범위한 멀티모달 에이전트 스택입니다.
  • MCP 통합: Model Context Protocol을 지원하여 하이브리드 워크플로우를 위해 다른 MCP 서버(예: 데이터베이스, Linear 또는 Playwright 도구)와 원활하게 결합할 수 있습니다.

데스크톱 에이전트는 로컬 추론(Hugging Face의 모델 사용)과 원격 작동을 모두 지원하며, 최근 업데이트로 무료 원격 컴퓨터 및 브라우저 제어 기능이 추가되었습니다.

UI-TARS가 다른 컴퓨터 사용 에이전트와 비교되는 방식

에이전트입력 유형아키텍처오픈 소스주요 강점주목할 만한 벤치마크 우위
UI-TARS-1.5스크린샷만종단간 VLM + 추론일반화 및 성찰OSWorld, AndroidWorld
Claude 컴퓨터 사용스크린샷 + API프롬프트 기반 + 도구 사용아니오안전성 및 생태계강력하지만 장기 작업에서는 낮음
OpenAI Operator / CUA스크린샷독점아니오ChatGPT와의 통합경쟁력 있지만 폐쇄적
Anthropic 컴퓨터 사용스크린샷Claude 3.5/3.7 백본아니오통제된 환경에서의 신뢰성UI-TARS보다 낮은 점수

커뮤니티 피드백에 따르면, UI-TARS는 UI 요소가 자주 변경되거나 깔끔한 접근성 메타데이터가 부족한 개방형 실제 데스크톱 작업에서 탁월한 성능을 발휘합니다.

사용 사례 및 응용 분야

  • 데스크톱 자동화: 양식 작성, 문서 편집, 파일 관리 또는 복잡한 소프트웨어 워크플로우 실행 (예: Photoshop 시퀀스).
  • 브라우저 작업: 웹 스크래핑, 양식 제출, 취약한 선택자 없이 다단계 온라인 프로세스 수행.
  • 모바일 및 게임 자동화: Android 앱 및 가상 게임 환경과 상호작용.
  • 개발 및 테스트: GUI 기반 테스트 생성 및 실행 또는 시각적 버그 재현.
  • 하이브리드 에이전트 시스템: GUI 동작과 백엔드 데이터 접근이 모두 필요한 작업을 위해 MCP 서버와 결합.

고급 팁, 엣지 케이스 및 흔한 함정

  • 로컬 배포: 7B 모델은 소비자용 하드웨어에서 효율적으로 실행됩니다 (특히 MLX를 통한 Apple Silicon의 양자화 버전). 무료 추론을 위해 LM Studio 또는 Ollama 호환 설정을 사용하세요.
  • 보안 고려사항: 전체 데스크톱 에이전트 실행에는 신중한 샌드박싱이 필요합니다. 민감한 환경에서는 권한을 제한하고 작업을 모니터링하세요.
  • 장기간 작업: 프롬프트에 명확한 이정표를 제공하여 모델의 반성 능력을 활용하세요. 반복적인 자기 수정이 성공률을 크게 향상시킵니다.
  • 피해야 할 함정:
    • 매우 동적인 UI에 단일 스크린샷을 지나치게 의존하기 (단기 기억 또는 MCP 도구와 결합).
    • 플랫폼별 작업 뉘앙스 무시하기 (예: 다양한 화면 해상도 간 좌표 스케일링).
    • 파인튜닝 없이 고도로 맞춤화되거나 낮은 대비 인터페이스에서 완벽한 성능 기대하기.

최상의 결과를 위해 작업 분해와 성공 기준을 포함하는 구조화된 프롬프트와 UI-TARS를 함께 사용하세요.

시작하기

  1. 공식 GitHub 저장소 방문: 모델은 bytedance/UI-TARS, 데스크톱 애플리케이션은 bytedance/UI-TARS-desktop.
  2. Hugging Face(ByteDance-Seed/UI-TARS-1.5-7B)에서 모델 다운로드.
  3. 빠른 테스트를 위해 데스크톱 앱 또는 브라우저 기반 데모를 시도하세요.
  4. 고급 도구 사용 에이전트를 위한 MCP 통합을 탐색하세요.

결론

UI-TARS는 화면을 사람처럼 보고 행동 전에 추론하는 진정한 네이티브 오픈소스 에이전트를 제공함으로써 GUI 자동화의 중요한 진전을 이룹니다. 강력한 벤치마크 성능, 반성적 학습, 실용적인 데스크톱 구현은 2026년에 폐쇄형 상용 컴퓨터 사용 에이전트의 선도적인 대안으로 자리매김합니다.

반복적인 GUI 작업을 자동화하거나 더 능력 있는 멀티모달 에이전트를 구축하려는 개발자와 파워 유저는 지금 UI-TARS를 탐색해야 합니다. 7B 모델과 데스크톱 애플리케이션으로 스크린샷 기반 자동화를 직접 체험한 후, 프로덕션 워크플로우를 위해 MCP 도구로 확장하세요.

Share this article