Simular AI Agent

Simular AI 成立于 2023 年，总部位于圣卡洛斯，是一家专注于开发模拟人类与 GUI 交互的“计算机使用代理”的 AI 初创公司。创始人 Ang Li 和 Jiachen Yang 拥有 DeepMind、谷歌、百度等顶尖机构的背景。核心使命是创造能像人一样使用计算机的 AI 代理，自动化繁琐的数字任务，解放人类潜能。

核心技术是 Agent S 框架及其升级版 Agent S2——一个开放、模块化、可扩展的代理框架。它结合通用模型进行高级规划，利用专用模型进行低级执行和界面接地，在多个基准测试中表现领先。Agent S2 引入了主动分层规划 (PHP) 和混合接地 (MoG) 等创新，仅依赖屏幕截图即可精确操作 GUI。公司拥抱开源，Agent S/S2 框架已在 GitHub 上开源。

产品组合包括面向个人的 Simular for macOS/Browser（本地 Mac 浏览器代理）和 Simular Desktop（跨平台桌面助手），以及面向企业的 Simular for Business（自主数字员工）。产品强调本地执行的安全与性能，并专注于人机协作。采用免费增值定价模式（目前处于测试阶段），并为企业提供定制解决方案。

2024 年，公司完成了 500 万美元的早期融资，投资方包括 Basis Set Ventures、Flying Fish Partners、Samsung NEXT Ventures 和 South Park Commons。

核心功能

类人 GUI 交互

核心能力，通过模拟人类操作与图形界面互动，无需依赖 API。

Agent S2 框架

先进的模块化代理框架，结合通用模型规划与专用模型执行/接地。

主动分层规划 (PHP)

主动预测并动态调整计划以适应实时环境变化，提高任务成功率。

混合接地 (MoG)

利用多种接地专家精确定位 UI 元素，仅需屏幕截图输入。

开源核心

Agent S/S2 框架开源，促进社区参与和技术透明度。

本地执行优先

个人产品强调在用户设备上运行，增强数据安全和隐私保护。

操作录制与回放

记录用户数字操作并能自动回放，简化重复任务自动化创建。

自纠正能力

代理在执行出错时能尝试不同的方法进行自我修正，提高鲁棒性。

技术深度解析：Agent S 框架与计算机使用代理

核心概念：AI 计算机使用代理

传统自动化方法（RPA、API 集成）存在局限性。Simular AI 致力于构建能直接**感知、推理和操作**各种平台 GUI 的智能代理。我们的“**计算机使用代理**”通过观察屏幕理解状态，精确模拟人类键鼠操作，并融合**快速思考**（直觉反应）和**慢速思考**（深度推理）的认知模式。

Agent S 与 S2 框架比较

核心技术体现在**开放、模块化、可扩展**的 Agent S/S2 框架上。两者均采用**通用模型**负责高级规划，**专用模型**负责低级执行和界面“**接地**”的设计原则。

技术维度	Agent S	Agent S2 (创新点)
规划能力	经验增强的分层规划	主动分层规划 (PHP): 预测未来状态并动态调整计划
人机接口	基础代理-计算机接口 (ACI)	增强型 ACI: 智能分配任务给专家模块
GUI 元素定位	依赖多模态输入，受可访问性 API 限制	混合接地 (MoG): 仅需屏幕截图即可精确定位界面元素
学习与适应	基础经验记忆机制	高级记忆系统与自纠错: 持续学习与策略调整

性能与基准测试

Agent S

OSWorld: 成功率较基线提升 83.6%
WindowsAgentArena: 展示优秀跨平台泛化能力

Agent S2 (SOTA 性能)

OSWorld: 50 步准确率 34.5%，超越 OpenAI CUA
WindowsAgentArena: 性能提升 52.8%
AndroidWorld: 准确率 50%，超越 UI-TARS

开源生态与社区

开源是 Simular AI 的核心差异化优势。Agent S/S2 框架已在 GitHub 完全开源。公司维护多个活跃代码仓库（Agent-S、OpenACI、pysimular 等），并建立了 Discord 社区促进开发者交流。使用该框架需要配置 Python 环境和 Docker，并依赖外部 LLM 服务和专用接地模型。

产品组合与服务

核心产品理念

产品设计围绕与用户协同工作的 AI 代理，强调**人机协作**和用户控制权。侧重**本地执行（on-device）**以增强安全、响应速度和体验。提供记录、共享和回放数字动作功能。

具体产品线

提供一系列产品，覆盖不同用户需求：

Simular for macOS / Simular Browser: macOS 原生代理，本地运行，内嵌 WebKit 引擎。强调自主性、共享控制、安全性和熟悉体验。简化日常数字生活。免费下载。
Simular Desktop: 桌面 AI 助手，执行数字动作和自动化任务。核心功能是录制操作为指令并回放。目标是节省时间、提高生产力。可能跨平台。提供免费和 Premium 计划。
Simular for Business: 定位为提升组织效率的**自主数字员工**。面向企业场景（金融、客服、HR 等）。专注自动化、生产力、可扩展性、工作流精简、RPA、数据分析等。需联系演示。
Agent S / S2 框架: 底层开源框架，面向开发者和研究人员。

定价结构

Simular AI 定价方案
计划名称	价格	主要特性	目标用户	可用附加服务
免费计划	¥0/月	基本工作区工具；公共社区动作；无私有动作	个人入门用户	无
Premium 计划	¥138/设备/月 (估算)	含免费特性；私有/团队频道动作；本地运行	需隐私/协作的个人/团队	服务器, 礼宾服务
Simular for Business	联系销售	自主数字员工；企业级功能与服务	企业用户	定制服务
Premium 附加服务
服务器	+¥275/设备/月 (估算)	Simular 托管服务器；含 200 代理小时；额外 ¥0.7/小时 (估算)	需云端计算能力用户	-
礼宾服务	联系销售	请求 Simular 专家获取定制结果，无需自创动作	需专家服务用户	-

竞争格局分析

AI 代理市场概览（聚焦计算机使用）

该细分市场快速发展，吸引大量关注和投资。核心目标涵盖工作流自动化、任务执行、代码生成、数据分析及软件交互 (GUI/API)。

技术路径多样：直接 GUI 交互、API 编排、代码生成、对话式 AI、无代码/低代码平台。

主要竞争对手

Simular AI 面临多维度竞争：

**直接 GUI 自动化竞争对手:** OpenAI Operator/CUA, Manus AI, Genspark Superagent, Ace, Proxy AI。

**更广泛 AI 代理框架/平台:** LangChain, AutoGen, CrewAI, 无代码/低代码平台 (Gumloop, n8n, Google, Microsoft, UiPath 等), 其他开源代理 (Rasa, Haystack 等)。

**现有生产力套件:** Microsoft 365 Copilot, Google Workspace AI。

竞争对手特性比较

竞争者	焦点	技术/方法	开源	用例	差异化
Simular AI	GUI 自动化	模块化(MoG,PHP),类人交互,截图分析	是(核心)	个人/企业自动化	开源,本地执行,人机协作,SOTA
OpenAI Operator	GUI 自动化	GPT-4o,任务分解	否(模型)	表单/电商	OpenAI生态,强基础模型
Manus AI	通用AI代理(GUI)	多代理协作,或用Claude 3.x	否	复杂任务自动化	高关注度/融资额,可靠性存疑
Genspark Superagent	API编排/工具调用	混合代理(9+模型),80+工具,API集成	否	广泛计算机任务	混合代理,丰富工具集,API重点
Ace	GUI 自动化	直接控制本地键鼠,观察学习	否	快速桌面任务	本地直接控制,声称速度快
Proxy AI	Web浏览自动化	并行处理(多代理),自然语言指令	否	网页研究/数据收集/填表	专注Web,并行处理加速
LangChain	LLM应用框架	提示链,数据集成,代理模块	是	构建各种LLM应用	广泛生态,灵活,非专攻GUI
AutoGen	多代理对话框架	多代理协调,代码生成,自我修正	是	复杂工作流,编程任务	微软支持,擅长代码/多代理交互
CrewAI	多代理编排框架	角色扮演代理协作,任务委派	是	需协作的任务自动化	易用性高,专注代理团队协调
UiPath Agent Builder	低代码平台	可视化设计,集成UiPath生态	否	企业级RPA/自动化	面向企业,与UiPath深度集成

战略分析 (SWOT)

优势 (Strengths)

顶尖技术专长与研究实力。
创新核心技术 (Agent S/S2, MoG, PHP)。
开放源代码战略。
早期融资验证。
务实愿景定位 (人机协作)。

劣势 (Weaknesses)

公司早期阶段。
缺成熟真实世界案例。
潜在商业化挑战。
依赖外部组件。
产品线清晰度不足。

机会 (Opportunities)

巨大市场需求 (AI 自动化)。
企业级市场潜力。
平台扩展 (跨 OS, 移动端)。
社区生态建设。
战略合作。

威胁 (Threats)

激烈市场竞争。
快速技术变革。
可靠性与可扩展性挑战。
商业模式可持续性。
数据隐私与安全风险。