Simular AI Agent

2023년에 설립되어 샌카를로스에 본사를 둔 Simular AI는 GUI와의 인간 상호 작용을 시뮬레이션하는 '컴퓨터 사용 에이전트' 개발에 주력하는 AI 스타트업입니다. 창립자인 Ang Li와 Jiachen Yang은 DeepMind, Google, Baidu와 같은 최고 기관 출신입니다. 핵심 사명은 인간처럼 컴퓨터를 사용할 수 있는 AI 에이전트를 만들어 지루한 디지털 작업을 자동화하고 인간의 잠재력을 발휘하는 것입니다.

핵심 기술은 Agent S 프레임워크와 업그레이드 버전인 Agent S2입니다. 이는 개방적이고 모듈식이며 확장 가능한 에이전트 프레임워크입니다. 고급 계획을 위한 일반 모델과 저수준 실행 및 인터페이스 '그라운딩'을 위한 특수 모델을 결합하여 여러 벤치마크에서 최고의 성능을 달성합니다. Agent S2는 PHP(Proactive Hierarchical Planning) 및 MoG(Mixture-of-Grounding)와 같은 혁신을 도입하여 스크린샷만으로 정확한 GUI 조작을 가능하게 합니다. 회사는 오픈 소스를 지향하며 Agent S/S2 프레임워크는 GitHub에서 사용할 수 있습니다.

제품 포트폴리오에는 개인용 Simular for macOS/Browser(로컬 Mac 브라우저 에이전트) 및 Simular Desktop(크로스 플랫폼 데스크톱 비서)과 기업용 Simular for Business(자율 디지털 직원)가 포함됩니다. 제품은 로컬 실행의 보안과 성능을 강조하고 인간-컴퓨터 협업에 중점을 둡니다. 프리미엄 가격 모델(현재 베타 버전)을 채택하고 기업을 위한 맞춤형 솔루션을 제공합니다.

2024년에는 Basis Set Ventures, Flying Fish Partners, Samsung NEXT Ventures, South Park Commons 등 투자자로부터 500만 달러의 초기 단계 자금 조달을 완료했습니다.

핵심 기능

인간과 유사한 GUI 상호 작용

핵심 기능으로, API에 의존하지 않고 인간의 조작을 시뮬레이션하여 그래픽 인터페이스와 상호 작용합니다.

Agent S2 프레임워크

일반 모델 계획과 특수 모델 실행/그라운딩을 결합한 고급 모듈식 에이전트 프레임워크입니다.

사전 예방적 계층 계획 (PHP)

실시간 환경 변화에 적응하기 위해 계획을 사전에 예측하고 동적으로 조정하여 작업 성공률을 향상시킵니다.

혼합 그라운딩 (MoG)

스크린샷 입력만 사용하여 여러 그라운딩 전문가를 활용하여 UI 요소를 정확하게 찾습니다.

오픈 소스 코어

Agent S/S2 프레임워크는 오픈 소스이며 커뮤니티 참여와 기술 투명성을 촉진합니다.

로컬 실행 우선

개인용 제품은 사용자 기기에서 실행하는 것을 강조하여 데이터 보안 및 개인 정보 보호를 강화합니다.

작업 기록 및 재생

사용자의 디지털 작업을 기록하고 자동으로 재생할 수 있어 반복적인 작업 자동화 생성을 간소화합니다.

자가 수정 기능

에이전트는 실행 중 오류 발생 시 자가 수정을 위해 다른 방법을 시도하여 견고성을 향상시킬 수 있습니다.

기술 심층 분석: Agent S 프레임워크 및 컴퓨터 사용 에이전트

핵심 개념: AI 컴퓨터 사용 에이전트

기존 자동화 방법(RPA, API 통합)에는 한계가 있습니다. Simular AI는 다양한 플랫폼에서 GUI를 직접 **인지, 추론, 조작**할 수 있는 지능형 에이전트 구축에 전념하고 있습니다. 우리의 '**컴퓨터 사용 에이전트**'는 화면을 관찰하여 상태를 이해하고, 인간의 키보드 및 마우스 조작을 정확하게 시뮬레이션하며, **빠른 사고**(직관적 반응)와 **느린 사고**(심층 추론)의 인지 패턴을 통합합니다.

Agent S 대 S2 프레임워크 비교

핵심 기술은 **개방적이고 모듈식이며 확장 가능한** Agent S/S2 프레임워크에 구현되어 있습니다. 둘 다 고급 계획에는 **일반 모델**을 사용하고 저수준 실행 및 인터페이스 '**그라운딩**'에는 **특수 모델**을 사용하는 설계 원칙을 따릅니다.

기술 차원	Agent S	Agent S2 (혁신)
계획 능력	경험 강화 계층 계획	사전 예방적 계층 계획 (PHP): 미래 상태를 예측하고 계획을 동적으로 조정
인간-컴퓨터 인터페이스	기본 에이전트-컴퓨터 인터페이스 (ACI)	향상된 ACI: 전문가 모듈에 지능적으로 작업 할당
GUI 요소 위치 파악	다중 모드 입력에 의존, 접근성 API에 의해 제한됨	혼합 그라운딩 (MoG): 스크린샷만 사용하여 인터페이스 요소를 정확하게 찾음
학습 및 적응	기본 경험 기억 메커니즘	고급 기억 시스템 및 자가 수정: 지속적인 학습 및 전략 조정

성능 및 벤치마크

Agent S

OSWorld: 기준 대비 성공률 83.6% 향상
WindowsAgentArena: 우수한 크로스 플랫폼 일반화 능력 입증

Agent S2 (SOTA 성능)

OSWorld: 50단계 정확도 34.5%, OpenAI CUA 능가
WindowsAgentArena: 성능 52.8% 향상
AndroidWorld: 정확도 50%, UI-TARS 능가

오픈 소스 생태계 및 커뮤니티

오픈 소스는 Simular AI의 핵심 차별화 요소입니다. Agent S/S2 프레임워크는 GitHub에서 완전히 오픈 소스화되어 있습니다. 회사는 여러 활성 리포지토리(Agent-S, OpenACI, pysimular 등)를 유지 관리하고 개발자 교류를 촉진하기 위해 Discord 커뮤니티를 구축했습니다. 프레임워크를 사용하려면 Python 환경과 Docker를 구성해야 하며 외부 LLM 서비스 및 특수 그라운딩 모델에 의존합니다.

제품 포트폴리오 및 서비스

핵심 제품 철학

제품 디자인은 사용자와 협력하는 AI 에이전트를 중심으로 이루어지며 **인간-컴퓨터 협업**과 사용자 제어를 강조합니다. 보안, 응답성 및 경험을 향상시키기 위해 **로컬 실행(온디바이스)**에 중점을 둡니다. 디지털 작업 기록, 공유 및 재생 기능을 제공합니다.

구체적인 제품 라인

다양한 사용자 요구를 충족하는 다양한 제품을 제공합니다:

Simular for macOS / Simular Browser: 네이티브 macOS 에이전트, 로컬에서 실행, WebKit 엔진 내장. 자율성, 공유 제어, 보안 및 익숙한 경험 강조. 일상적인 디지털 생활 간소화. 무료 다운로드.
Simular Desktop: 디지털 작업 실행 및 작업 자동화를 위한 데스크톱 AI 비서. 핵심 기능은 작업을 지침으로 기록하고 재생하는 것입니다. 시간 절약 및 생산성 향상을 목표로 합니다. 잠재적으로 크로스 플랫폼. 무료 및 프리미엄 플랜 제공.
Simular for Business: 조직 효율성을 향상시키는 **자율 디지털 직원**으로 자리매김합니다. 기업 시나리오(금융, 고객 서비스, HR 등)를 대상으로 합니다. 자동화, 생산성, 확장성, 워크플로우 간소화, RPA, 데이터 분석 등에 중점을 둡니다. 데모 문의.
Agent S / S2 프레임워크: 개발자 및 연구원을 위한 기본 오픈 소스 프레임워크.

가격 구조

Simular AI 가격 플랜
플랜 이름	가격	주요 기능	대상 사용자	사용 가능한 애드온
무료 플랜	월 $0	기본 작업 공간 도구, 공개 커뮤니티 작업, 비공개 작업 없음	개인 초보 사용자	없음
프리미엄 플랜	월 $19.99/기기	무료 기능 포함, 비공개/팀 채널 작업, 로컬 실행	개인 정보 보호/협업이 필요한 개인/팀	서버, 컨시어지
Simular for Business	영업팀에 문의	자율 디지털 직원, 엔터프라이즈급 기능 및 서비스	기업 사용자	맞춤형 서비스
프리미엄 애드온 서비스
서버	+월 $39.99/기기	Simular 호스팅 서버, 200 에이전트 시간 포함, 추가 시간당 $0.10	클라우드 컴퓨팅 성능이 필요한 사용자	-
컨시어지	영업팀에 문의	직접 작업을 만들지 않고 맞춤형 결과를 위해 Simular 전문가에게 요청	전문가 서비스가 필요한 사용자	-

경쟁 환경 분석

AI 에이전트 시장 개요 (컴퓨터 사용 중심)

이 분야는 빠르게 발전하고 있으며 상당한 관심과 투자를 유치하고 있습니다. 핵심 목표에는 워크플로우 자동화, 작업 실행, 코드 생성, 데이터 분석 및 소프트웨어 상호 작용(GUI/API)이 포함됩니다.

다양한 기술 경로: 직접 GUI 상호 작용, API 오케스트레이션, 코드 생성, 대화형 AI, 노코드/로코드 플랫폼.

주요 경쟁사

Simular AI는 다차원적인 경쟁에 직면해 있습니다:

**직접 GUI 자동화 경쟁사:** OpenAI Operator/CUA, Manus AI, Genspark Superagent, Ace, Proxy AI.

**광범위한 AI 에이전트 프레임워크/플랫폼:** LangChain, AutoGen, CrewAI, 노코드/로코드 플랫폼(Gumloop, n8n, Google, Microsoft, UiPath 등), 기타 오픈 소스 에이전트(Rasa, Haystack 등).

**기존 생산성 제품군:** Microsoft 365 Copilot, Google Workspace AI.

경쟁사 기능 비교

경쟁사	초점	기술/방법	오픈 소스	사용 사례	차별화
Simular AI	GUI 자동화	모듈식(MoG, PHP), 인간과 유사한 상호 작용, 스크린샷 분석	예 (핵심)	개인/기업 자동화	오픈 소스, 로컬 실행, 인간 협업, SOTA
OpenAI Operator	GUI 자동화	GPT-4o, 작업 분해	아니요 (모델)	양식/전자 상거래	OpenAI 생태계, 강력한 기본 모델
Manus AI	일반 AI 에이전트 (GUI)	다중 에이전트 협업 또는 Claude 3.x 사용	아니요	복잡한 작업 자동화	높은 관심/자금 조달, 신뢰성 우려
Genspark Superagent	API 오케스트레이션/도구 호출	하이브리드 에이전트(9개 이상 모델), 80개 이상 도구, API 통합	아니요	광범위한 컴퓨터 작업	하이브리드 에이전트, 풍부한 도구 세트, API 중심
Ace	GUI 자동화	직접 로컬 K/M 제어, 관찰 학습	아니요	빠른 데스크톱 작업	로컬 직접 제어, 속도 주장
Proxy AI	웹 브라우징 자동화	병렬 처리(다중 에이전트), 자연어 명령	아니요	웹 조사/데이터 수집/양식 작성	웹 중심, 병렬 처리 속도 향상
LangChain	LLM 애플리케이션 프레임워크	프롬프트 체인, 데이터 통합, 에이전트 모듈	예	다양한 LLM 앱 구축	광범위한 생태계, 유연성, GUI 중심 아님
AutoGen	다중 에이전트 대화 프레임워크	다중 에이전트 조정, 코드 생성, 자가 수정	예	복잡한 워크플로우, 프로그래밍 작업	Microsoft 지원, 코드/다중 에이전트 상호 작용에 강함
CrewAI	다중 에이전트 오케스트레이션 프레임워크	역할 기반 에이전트 협업, 작업 위임	예	협업 작업 자동화	높은 사용성, 에이전트 팀 조정에 중점
UiPath Agent Builder	로코드 플랫폼	시각적 디자인, UiPath 생태계 통합	아니요	엔터프라이즈 RPA/자동화	엔터프라이즈 중심, UiPath와의 깊은 통합

전략 분석 (SWOT)

강점 (Strengths)

최고 수준의 기술 전문성과 연구 역량.
혁신적인 핵심 기술 (Agent S/S2, MoG, PHP).
오픈 소스 전략.
초기 단계 자금 조달 검증.
실용적인 비전 포지셔닝 (인간-컴퓨터 협업).

약점 (Weaknesses)

회사의 초기 단계.
성숙한 실제 사례 부족.
잠재적인 상업화 과제.
외부 구성 요소에 대한 의존성.
제품 라인의 명확성 부족.

기회 (Opportunities)

거대한 시장 수요 (AI 자동화).
엔터프라이즈 시장 잠재력.
플랫폼 확장 (크로스 OS, 모바일).
커뮤니티 생태계 구축.
전략적 파트너십.

위협 (Threats)

치열한 시장 경쟁.
빠른 기술 변화.
신뢰성 및 확장성 과제.
비즈니스 모델 지속 가능성.
데이터 개인 정보 보호 및 보안 위험.