2023년에 설립되어 샌카를로스에 본사를 둔 Simular AI는 GUI와의 인간 상호 작용을 시뮬레이션하는 '컴퓨터 사용 에이전트' 개발에 주력하는 AI 스타트업입니다. 창립자인 Ang Li와 Jiachen Yang은 DeepMind, Google, Baidu와 같은 최고 기관 출신입니다. 핵심 사명은 인간처럼 컴퓨터를 사용할 수 있는 AI 에이전트를 만들어 지루한 디지털 작업을 자동화하고 인간의 잠재력을 발휘하는 것입니다.
핵심 기술은 Agent S 프레임워크와 업그레이드 버전인 Agent S2입니다. 이는 개방적이고 모듈식이며 확장 가능한 에이전트 프레임워크입니다. 고급 계획을 위한 일반 모델과 저수준 실행 및 인터페이스 '그라운딩'을 위한 특수 모델을 결합하여 여러 벤치마크에서 최고의 성능을 달성합니다. Agent S2는 PHP(Proactive Hierarchical Planning) 및 MoG(Mixture-of-Grounding)와 같은 혁신을 도입하여 스크린샷만으로 정확한 GUI 조작을 가능하게 합니다. 회사는 오픈 소스를 지향하며 Agent S/S2 프레임워크는 GitHub에서 사용할 수 있습니다.
제품 포트폴리오에는 개인용 Simular for macOS/Browser(로컬 Mac 브라우저 에이전트) 및 Simular Desktop(크로스 플랫폼 데스크톱 비서)과 기업용 Simular for Business(자율 디지털 직원)가 포함됩니다. 제품은 로컬 실행의 보안과 성능을 강조하고 인간-컴퓨터 협업에 중점을 둡니다. 프리미엄 가격 모델(현재 베타 버전)을 채택하고 기업을 위한 맞춤형 솔루션을 제공합니다.
2024년에는 Basis Set Ventures, Flying Fish Partners, Samsung NEXT Ventures, South Park Commons 등 투자자로부터 500만 달러의 초기 단계 자금 조달을 완료했습니다.
핵심 기능으로, API에 의존하지 않고 인간의 조작을 시뮬레이션하여 그래픽 인터페이스와 상호 작용합니다.
일반 모델 계획과 특수 모델 실행/그라운딩을 결합한 고급 모듈식 에이전트 프레임워크입니다.
실시간 환경 변화에 적응하기 위해 계획을 사전에 예측하고 동적으로 조정하여 작업 성공률을 향상시킵니다.
스크린샷 입력만 사용하여 여러 그라운딩 전문가를 활용하여 UI 요소를 정확하게 찾습니다.
Agent S/S2 프레임워크는 오픈 소스이며 커뮤니티 참여와 기술 투명성을 촉진합니다.
개인용 제품은 사용자 기기에서 실행하는 것을 강조하여 데이터 보안 및 개인 정보 보호를 강화합니다.
사용자의 디지털 작업을 기록하고 자동으로 재생할 수 있어 반복적인 작업 자동화 생성을 간소화합니다.
에이전트는 실행 중 오류 발생 시 자가 수정을 위해 다른 방법을 시도하여 견고성을 향상시킬 수 있습니다.
기존 자동화 방법(RPA, API 통합)에는 한계가 있습니다. Simular AI는 다양한 플랫폼에서 GUI를 직접 **인지, 추론, 조작**할 수 있는 지능형 에이전트 구축에 전념하고 있습니다. 우리의 '**컴퓨터 사용 에이전트**'는 화면을 관찰하여 상태를 이해하고, 인간의 키보드 및 마우스 조작을 정확하게 시뮬레이션하며, **빠른 사고**(직관적 반응)와 **느린 사고**(심층 추론)의 인지 패턴을 통합합니다.
핵심 기술은 **개방적이고 모듈식이며 확장 가능한** Agent S/S2 프레임워크에 구현되어 있습니다. 둘 다 고급 계획에는 **일반 모델**을 사용하고 저수준 실행 및 인터페이스 '**그라운딩**'에는 **특수 모델**을 사용하는 설계 원칙을 따릅니다.
기술 차원 | Agent S | Agent S2 (혁신) |
---|---|---|
계획 능력 | 경험 강화 계층 계획 | **사전 예방적 계층 계획 (PHP)**: 미래 상태를 예측하고 계획을 동적으로 조정 |
인간-컴퓨터 인터페이스 | 기본 에이전트-컴퓨터 인터페이스 (ACI) | **향상된 ACI**: 전문가 모듈에 지능적으로 작업 할당 |
GUI 요소 위치 파악 | 다중 모드 입력에 의존, 접근성 API에 의해 제한됨 | **혼합 그라운딩 (MoG)**: 스크린샷만 사용하여 인터페이스 요소를 정확하게 찾음 |
학습 및 적응 | 기본 경험 기억 메커니즘 | **고급 기억 시스템 및 자가 수정**: 지속적인 학습 및 전략 조정 |
오픈 소스는 Simular AI의 핵심 차별화 요소입니다. Agent S/S2 프레임워크는 GitHub에서 완전히 오픈 소스화되어 있습니다. 회사는 여러 활성 리포지토리(Agent-S, OpenACI, pysimular 등)를 유지 관리하고 개발자 교류를 촉진하기 위해 Discord 커뮤니티를 구축했습니다. 프레임워크를 사용하려면 Python 환경과 Docker를 구성해야 하며 외부 LLM 서비스 및 특수 그라운딩 모델에 의존합니다.
제품 디자인은 사용자와 협력하는 AI 에이전트를 중심으로 이루어지며 **인간-컴퓨터 협업**과 사용자 제어를 강조합니다. 보안, 응답성 및 경험을 향상시키기 위해 **로컬 실행(온디바이스)**에 중점을 둡니다. 디지털 작업 기록, 공유 및 재생 기능을 제공합니다.
다양한 사용자 요구를 충족하는 다양한 제품을 제공합니다:
플랜 이름 | 가격 | 주요 기능 | 대상 사용자 | 사용 가능한 애드온 |
---|---|---|---|---|
무료 플랜 | 월 $0 | 기본 작업 공간 도구, 공개 커뮤니티 작업, 비공개 작업 없음 | 개인 초보 사용자 | 없음 |
프리미엄 플랜 | 월 $19.99/기기 | 무료 기능 포함, 비공개/팀 채널 작업, 로컬 실행 | 개인 정보 보호/협업이 필요한 개인/팀 | 서버, 컨시어지 |
Simular for Business | 영업팀에 문의 | 자율 디지털 직원, 엔터프라이즈급 기능 및 서비스 | 기업 사용자 | 맞춤형 서비스 |
프리미엄 애드온 서비스 | ||||
서버 | +월 $39.99/기기 | Simular 호스팅 서버, 200 에이전트 시간 포함, 추가 시간당 $0.10 | 클라우드 컴퓨팅 성능이 필요한 사용자 | - |
컨시어지 | 영업팀에 문의 | 직접 작업을 만들지 않고 맞춤형 결과를 위해 Simular 전문가에게 요청 | 전문가 서비스가 필요한 사용자 | - |
이 분야는 빠르게 발전하고 있으며 상당한 관심과 투자를 유치하고 있습니다. 핵심 목표에는 워크플로우 자동화, 작업 실행, 코드 생성, 데이터 분석 및 소프트웨어 상호 작용(GUI/API)이 포함됩니다.
다양한 기술 경로: 직접 GUI 상호 작용, API 오케스트레이션, 코드 생성, 대화형 AI, 노코드/로코드 플랫폼.
Simular AI는 다차원적인 경쟁에 직면해 있습니다:
**직접 GUI 자동화 경쟁사:** OpenAI Operator/CUA, Manus AI, Genspark Superagent, Ace, Proxy AI.
**광범위한 AI 에이전트 프레임워크/플랫폼:** LangChain, AutoGen, CrewAI, 노코드/로코드 플랫폼(Gumloop, n8n, Google, Microsoft, UiPath 등), 기타 오픈 소스 에이전트(Rasa, Haystack 등).
**기존 생산성 제품군:** Microsoft 365 Copilot, Google Workspace AI.
경쟁사 | 초점 | 기술/방법 | 오픈 소스 | 사용 사례 | 차별화 |
---|---|---|---|---|---|
Simular AI | GUI 자동화 | 모듈식(MoG, PHP), 인간과 유사한 상호 작용, 스크린샷 분석 | 예 (핵심) | 개인/기업 자동화 | 오픈 소스, 로컬 실행, 인간 협업, SOTA |
OpenAI Operator | GUI 자동화 | GPT-4o, 작업 분해 | 아니요 (모델) | 양식/전자 상거래 | OpenAI 생태계, 강력한 기본 모델 |
Manus AI | 일반 AI 에이전트 (GUI) | 다중 에이전트 협업 또는 Claude 3.x 사용 | 아니요 | 복잡한 작업 자동화 | 높은 관심/자금 조달, 신뢰성 우려 |
Genspark Superagent | API 오케스트레이션/도구 호출 | 하이브리드 에이전트(9개 이상 모델), 80개 이상 도구, API 통합 | 아니요 | 광범위한 컴퓨터 작업 | 하이브리드 에이전트, 풍부한 도구 세트, API 중심 |
Ace | GUI 자동화 | 직접 로컬 K/M 제어, 관찰 학습 | 아니요 | 빠른 데스크톱 작업 | 로컬 직접 제어, 속도 주장 |
Proxy AI | 웹 브라우징 자동화 | 병렬 처리(다중 에이전트), 자연어 명령 | 아니요 | 웹 조사/데이터 수집/양식 작성 | 웹 중심, 병렬 처리 속도 향상 |
LangChain | LLM 애플리케이션 프레임워크 | 프롬프트 체인, 데이터 통합, 에이전트 모듈 | 예 | 다양한 LLM 앱 구축 | 광범위한 생태계, 유연성, GUI 중심 아님 |
AutoGen | 다중 에이전트 대화 프레임워크 | 다중 에이전트 조정, 코드 생성, 자가 수정 | 예 | 복잡한 워크플로우, 프로그래밍 작업 | Microsoft 지원, 코드/다중 에이전트 상호 작용에 강함 |
CrewAI | 다중 에이전트 오케스트레이션 프레임워크 | 역할 기반 에이전트 협업, 작업 위임 | 예 | 협업 작업 자동화 | 높은 사용성, 에이전트 팀 조정에 중점 |
UiPath Agent Builder | 로코드 플랫폼 | 시각적 디자인, UiPath 생태계 통합 | 아니요 | 엔터프라이즈 RPA/자동화 | 엔터프라이즈 중심, UiPath와의 깊은 통합 |