Simular AI 成立于 2023 年,总部位于圣卡洛斯,是一家专注于开发模拟人类与 GUI 交互的“计算机使用代理”的 AI 初创公司。创始人 Ang Li 和 Jiachen Yang 拥有 DeepMind、谷歌、百度等顶尖机构的背景。核心使命是创造能像人一样使用计算机的 AI 代理,自动化繁琐的数字任务,解放人类潜能。
核心技术是 Agent S 框架及其升级版 Agent S2——一个开放、模块化、可扩展的代理框架。它结合通用模型进行高级规划,利用专用模型进行低级执行和界面接地,在多个基准测试中表现领先。Agent S2 引入了主动分层规划 (PHP) 和混合接地 (MoG) 等创新,仅依赖屏幕截图即可精确操作 GUI。公司拥抱开源,Agent S/S2 框架已在 GitHub 上开源。
产品组合包括面向个人的 Simular for macOS/Browser(本地 Mac 浏览器代理)和 Simular Desktop(跨平台桌面助手),以及面向企业的 Simular for Business(自主数字员工)。产品强调本地执行的安全与性能,并专注于人机协作。采用免费增值定价模式(目前处于测试阶段),并为企业提供定制解决方案。
2024 年,公司完成了 500 万美元的早期融资,投资方包括 Basis Set Ventures、Flying Fish Partners、Samsung NEXT Ventures 和 South Park Commons。
核心能力,通过模拟人类操作与图形界面互动,无需依赖 API。
先进的模块化代理框架,结合通用模型规划与专用模型执行/接地。
主动预测并动态调整计划以适应实时环境变化,提高任务成功率。
利用多种接地专家精确定位 UI 元素,仅需屏幕截图输入。
Agent S/S2 框架开源,促进社区参与和技术透明度。
个人产品强调在用户设备上运行,增强数据安全和隐私保护。
记录用户数字操作并能自动回放,简化重复任务自动化创建。
代理在执行出错时能尝试不同的方法进行自我修正,提高鲁棒性。
传统自动化方法(RPA、API 集成)存在局限性。Simular AI 致力于构建能直接**感知、推理和操作**各种平台 GUI 的智能代理。我们的“**计算机使用代理**”通过观察屏幕理解状态,精确模拟人类键鼠操作,并融合**快速思考**(直觉反应)和**慢速思考**(深度推理)的认知模式。
核心技术体现在**开放、模块化、可扩展**的 Agent S/S2 框架上。两者均采用**通用模型**负责高级规划,**专用模型**负责低级执行和界面“**接地**”的设计原则。
技术维度 | Agent S | Agent S2 (创新点) |
---|---|---|
规划能力 | 经验增强的分层规划 | **主动分层规划 (PHP)**: 预测未来状态并动态调整计划 |
人机接口 | 基础代理-计算机接口 (ACI) | **增强型 ACI**: 智能分配任务给专家模块 |
GUI 元素定位 | 依赖多模态输入,受可访问性 API 限制 | **混合接地 (MoG)**: 仅需屏幕截图即可精确定位界面元素 |
学习与适应 | 基础经验记忆机制 | **高级记忆系统与自纠错**: 持续学习与策略调整 |
开源是 Simular AI 的核心差异化优势。Agent S/S2 框架已在 GitHub 完全开源。公司维护多个活跃代码仓库(Agent-S、OpenACI、pysimular 等),并建立了 Discord 社区促进开发者交流。使用该框架需要配置 Python 环境和 Docker,并依赖外部 LLM 服务和专用接地模型。
产品设计围绕与用户协同工作的 AI 代理,强调**人机协作**和用户控制权。侧重**本地执行(on-device)**以增强安全、响应速度和体验。提供记录、共享和回放数字动作功能。
提供一系列产品,覆盖不同用户需求:
计划名称 | 价格 | 主要特性 | 目标用户 | 可用附加服务 |
---|---|---|---|---|
免费计划 | ¥0/月 | 基本工作区工具;公共社区动作;无私有动作 | 个人入门用户 | 无 |
Premium 计划 | ¥138/设备/月 (估算) | 含免费特性;私有/团队频道动作;本地运行 | 需隐私/协作的个人/团队 | 服务器, 礼宾服务 |
Simular for Business | 联系销售 | 自主数字员工;企业级功能与服务 | 企业用户 | 定制服务 |
Premium 附加服务 | ||||
服务器 | +¥275/设备/月 (估算) | Simular 托管服务器;含 200 代理小时;额外 ¥0.7/小时 (估算) | 需云端计算能力用户 | - |
礼宾服务 | 联系销售 | 请求 Simular 专家获取定制结果,无需自创动作 | 需专家服务用户 | - |
该细分市场快速发展,吸引大量关注和投资。核心目标涵盖工作流自动化、任务执行、代码生成、数据分析及软件交互 (GUI/API)。
技术路径多样:直接 GUI 交互、API 编排、代码生成、对话式 AI、无代码/低代码平台。
Simular AI 面临多维度竞争:
**直接 GUI 自动化竞争对手:** OpenAI Operator/CUA, Manus AI, Genspark Superagent, Ace, Proxy AI。
**更广泛 AI 代理框架/平台:** LangChain, AutoGen, CrewAI, 无代码/低代码平台 (Gumloop, n8n, Google, Microsoft, UiPath 等), 其他开源代理 (Rasa, Haystack 等)。
**现有生产力套件:** Microsoft 365 Copilot, Google Workspace AI。
竞争者 | 焦点 | 技术/方法 | 开源 | 用例 | 差异化 |
---|---|---|---|---|---|
Simular AI | GUI 自动化 | 模块化(MoG,PHP),类人交互,截图分析 | 是(核心) | 个人/企业自动化 | 开源,本地执行,人机协作,SOTA |
OpenAI Operator | GUI 自动化 | GPT-4o,任务分解 | 否(模型) | 表单/电商 | OpenAI生态,强基础模型 |
Manus AI | 通用AI代理(GUI) | 多代理协作,或用Claude 3.x | 否 | 复杂任务自动化 | 高关注度/融资额,可靠性存疑 |
Genspark Superagent | API编排/工具调用 | 混合代理(9+模型),80+工具,API集成 | 否 | 广泛计算机任务 | 混合代理,丰富工具集,API重点 |
Ace | GUI 自动化 | 直接控制本地键鼠,观察学习 | 否 | 快速桌面任务 | 本地直接控制,声称速度快 |
Proxy AI | Web浏览自动化 | 并行处理(多代理),自然语言指令 | 否 | 网页研究/数据收集/填表 | 专注Web,并行处理加速 |
LangChain | LLM应用框架 | 提示链,数据集成,代理模块 | 是 | 构建各种LLM应用 | 广泛生态,灵活,非专攻GUI |
AutoGen | 多代理对话框架 | 多代理协调,代码生成,自我修正 | 是 | 复杂工作流,编程任务 | 微软支持,擅长代码/多代理交互 |
CrewAI | 多代理编排框架 | 角色扮演代理协作,任务委派 | 是 | 需协作的任务自动化 | 易用性高,专注代理团队协调 |
UiPath Agent Builder | 低代码平台 | 可视化设计,集成UiPath生态 | 否 | 企业级RPA/自动化 | 面向企业,与UiPath深度集成 |