Simular AI Agent

Simular AI 成立于 2023 年,总部位于圣卡洛斯,是一家专注于开发模拟人类与 GUI 交互的“计算机使用代理”的 AI 初创公司。创始人 Ang Li 和 Jiachen Yang 拥有 DeepMind、谷歌、百度等顶尖机构的背景。核心使命是创造能像人一样使用计算机的 AI 代理,自动化繁琐的数字任务,解放人类潜能。

核心技术是 Agent S 框架及其升级版 Agent S2——一个开放、模块化、可扩展的代理框架。它结合通用模型进行高级规划,利用专用模型进行低级执行和界面接地,在多个基准测试中表现领先。Agent S2 引入了主动分层规划 (PHP) 和混合接地 (MoG) 等创新,仅依赖屏幕截图即可精确操作 GUI。公司拥抱开源,Agent S/S2 框架已在 GitHub 上开源。

产品组合包括面向个人的 Simular for macOS/Browser(本地 Mac 浏览器代理)和 Simular Desktop(跨平台桌面助手),以及面向企业的 Simular for Business(自主数字员工)。产品强调本地执行的安全与性能,并专注于人机协作。采用免费增值定价模式(目前处于测试阶段),并为企业提供定制解决方案。

2024 年,公司完成了 500 万美元的早期融资,投资方包括 Basis Set Ventures、Flying Fish Partners、Samsung NEXT Ventures 和 South Park Commons。

核心功能

类人 GUI 交互

核心能力,通过模拟人类操作与图形界面互动,无需依赖 API。

Agent S2 框架

先进的模块化代理框架,结合通用模型规划与专用模型执行/接地。

主动分层规划 (PHP)

主动预测并动态调整计划以适应实时环境变化,提高任务成功率。

混合接地 (MoG)

利用多种接地专家精确定位 UI 元素,仅需屏幕截图输入。

开源核心

Agent S/S2 框架开源,促进社区参与和技术透明度。

本地执行优先

个人产品强调在用户设备上运行,增强数据安全和隐私保护。

操作录制与回放

记录用户数字操作并能自动回放,简化重复任务自动化创建。

自纠正能力

代理在执行出错时能尝试不同的方法进行自我修正,提高鲁棒性。

技术深度解析:Agent S 框架与计算机使用代理

核心概念:AI 计算机使用代理

传统自动化方法(RPA、API 集成)存在局限性。Simular AI 致力于构建能直接**感知、推理和操作**各种平台 GUI 的智能代理。我们的“**计算机使用代理**”通过观察屏幕理解状态,精确模拟人类键鼠操作,并融合**快速思考**(直觉反应)和**慢速思考**(深度推理)的认知模式。

Agent S 与 S2 框架比较

核心技术体现在**开放、模块化、可扩展**的 Agent S/S2 框架上。两者均采用**通用模型**负责高级规划,**专用模型**负责低级执行和界面“**接地**”的设计原则。

技术维度Agent SAgent S2 (创新点)
规划能力经验增强的分层规划**主动分层规划 (PHP)**: 预测未来状态并动态调整计划
人机接口基础代理-计算机接口 (ACI)**增强型 ACI**: 智能分配任务给专家模块
GUI 元素定位依赖多模态输入,受可访问性 API 限制**混合接地 (MoG)**: 仅需屏幕截图即可精确定位界面元素
学习与适应基础经验记忆机制**高级记忆系统与自纠错**: 持续学习与策略调整

性能与基准测试

Agent S

  • OSWorld: 成功率较基线提升 83.6%
  • WindowsAgentArena: 展示优秀跨平台泛化能力

Agent S2 (SOTA 性能)

  • OSWorld: 50 步准确率 34.5%,超越 OpenAI CUA
  • WindowsAgentArena: 性能提升 52.8%
  • AndroidWorld: 准确率 50%,超越 UI-TARS

开源生态与社区

开源是 Simular AI 的核心差异化优势。Agent S/S2 框架已在 GitHub 完全开源。公司维护多个活跃代码仓库(Agent-S、OpenACI、pysimular 等),并建立了 Discord 社区促进开发者交流。使用该框架需要配置 Python 环境和 Docker,并依赖外部 LLM 服务和专用接地模型。

产品组合与服务

核心产品理念

产品设计围绕与用户协同工作的 AI 代理,强调**人机协作**和用户控制权。侧重**本地执行(on-device)**以增强安全、响应速度和体验。提供记录、共享和回放数字动作功能。

具体产品线

提供一系列产品,覆盖不同用户需求:

  • Simular for macOS / Simular Browser: macOS 原生代理,本地运行,内嵌 WebKit 引擎。强调自主性、共享控制、安全性和熟悉体验。简化日常数字生活。免费下载。
  • Simular Desktop: 桌面 AI 助手,执行数字动作和自动化任务。核心功能是录制操作为指令并回放。目标是节省时间、提高生产力。可能跨平台。提供免费和 Premium 计划。
  • Simular for Business: 定位为提升组织效率的**自主数字员工**。面向企业场景(金融、客服、HR 等)。专注自动化、生产力、可扩展性、工作流精简、RPA、数据分析等。需联系演示。
  • Agent S / S2 框架: 底层开源框架,面向开发者和研究人员。

定价结构

Simular AI 定价方案
计划名称价格主要特性目标用户可用附加服务
免费计划¥0/月基本工作区工具;公共社区动作;无私有动作个人入门用户
Premium 计划¥138/设备/月 (估算)含免费特性;私有/团队频道动作;本地运行需隐私/协作的个人/团队服务器, 礼宾服务
Simular for Business联系销售自主数字员工;企业级功能与服务企业用户定制服务
Premium 附加服务
服务器+¥275/设备/月 (估算)Simular 托管服务器;含 200 代理小时;额外 ¥0.7/小时 (估算)需云端计算能力用户-
礼宾服务联系销售请求 Simular 专家获取定制结果,无需自创动作需专家服务用户-

竞争格局分析

AI 代理市场概览(聚焦计算机使用)

该细分市场快速发展,吸引大量关注和投资。核心目标涵盖工作流自动化、任务执行、代码生成、数据分析及软件交互 (GUI/API)。

技术路径多样:直接 GUI 交互、API 编排、代码生成、对话式 AI、无代码/低代码平台。

主要竞争对手

Simular AI 面临多维度竞争:

**直接 GUI 自动化竞争对手:** OpenAI Operator/CUA, Manus AI, Genspark Superagent, Ace, Proxy AI。

**更广泛 AI 代理框架/平台:** LangChain, AutoGen, CrewAI, 无代码/低代码平台 (Gumloop, n8n, Google, Microsoft, UiPath 等), 其他开源代理 (Rasa, Haystack 等)。

**现有生产力套件:** Microsoft 365 Copilot, Google Workspace AI。

竞争对手特性比较

竞争者焦点技术/方法开源用例差异化
Simular AIGUI 自动化模块化(MoG,PHP),类人交互,截图分析是(核心)个人/企业自动化开源,本地执行,人机协作,SOTA
OpenAI OperatorGUI 自动化GPT-4o,任务分解否(模型)表单/电商OpenAI生态,强基础模型
Manus AI通用AI代理(GUI)多代理协作,或用Claude 3.x复杂任务自动化高关注度/融资额,可靠性存疑
Genspark SuperagentAPI编排/工具调用混合代理(9+模型),80+工具,API集成广泛计算机任务混合代理,丰富工具集,API重点
AceGUI 自动化直接控制本地键鼠,观察学习快速桌面任务本地直接控制,声称速度快
Proxy AIWeb浏览自动化并行处理(多代理),自然语言指令网页研究/数据收集/填表专注Web,并行处理加速
LangChainLLM应用框架提示链,数据集成,代理模块构建各种LLM应用广泛生态,灵活,非专攻GUI
AutoGen多代理对话框架多代理协调,代码生成,自我修正复杂工作流,编程任务微软支持,擅长代码/多代理交互
CrewAI多代理编排框架角色扮演代理协作,任务委派需协作的任务自动化易用性高,专注代理团队协调
UiPath Agent Builder低代码平台可视化设计,集成UiPath生态企业级RPA/自动化面向企业,与UiPath深度集成

战略分析 (SWOT)

优势 (Strengths)

  • 顶尖技术专长与研究实力。
  • 创新核心技术 (Agent S/S2, MoG, PHP)。
  • 开放源代码战略。
  • 早期融资验证。
  • 务实愿景定位 (人机协作)。

劣势 (Weaknesses)

  • 公司早期阶段。
  • 缺成熟真实世界案例。
  • 潜在商业化挑战。
  • 依赖外部组件。
  • 产品线清晰度不足。

机会 (Opportunities)

  • 巨大市场需求 (AI 自动化)。
  • 企业级市场潜力。
  • 平台扩展 (跨 OS, 移动端)。
  • 社区生态建设。
  • 战略合作。

威胁 (Threats)

  • 激烈市场竞争。
  • 快速技术变革。
  • 可靠性与可扩展性挑战。
  • 商业模式可持续性。
  • 数据隐私与安全风险。

常见问题解答 (FAQ)