2023年に設立され、サンカルロスに本社を置くSimular AIは、GUIとの人間の対話をシミュレートする「コンピューター利用エージェント」の開発に焦点を当てたAIスタートアップです。創設者のAng Li氏とJiachen Yang氏は、DeepMind、Google、Baiduなどのトップ機関での経歴を持っています。中核的な使命は、人間のようにコンピューターを使用できるAIエージェントを作成し、退屈なデジタルタスクを自動化し、人間の可能性を解放することです。
中核技術はAgent Sフレームワークとそのアップグレード版であるAgent S2です。これはオープンでモジュール式で拡張可能なエージェントフレームワークです。高レベルの計画には汎用モデルを組み合わせ、低レベルの実行とインターフェースの接地には特殊なモデルを利用し、複数のベンチマークでトップのパフォーマンスを達成しています。Agent S2は、Proactive Hierarchical Planning (PHP)やMixture-of-Grounding (MoG)などの革新を導入し、スクリーンショットのみを使用して正確なGUI操作を可能にします。同社はオープンソースを採用しており、Agent S/S2フレームワークはGitHubで公開されています。
製品ポートフォリオには、個人向けのSimular for macOS/Browser(ローカルMacブラウザエージェント)とSimular Desktop(クロスプラットフォームデスクトップアシスタント)、および企業向けのSimular for Business(自律型デジタル従業員)が含まれます。製品はローカル実行のセキュリティとパフォーマンスを強調し、人間とコンピューターの協調に焦点を当てています。フリーミアム価格モデル(現在ベータ版)が採用されており、企業向けにはカスタムソリューションが提供されています。
2024年、同社はBasis Set Ventures、Flying Fish Partners、Samsung NEXT Ventures、South Park Commonsなどの投資家から500万ドルの初期段階の資金調達を完了しました。
コア機能。APIに依存せず、人間の操作をシミュレートしてグラフィカルインターフェースと対話します。
汎用モデル計画と特殊モデル実行/接地を組み合わせた高度なモジュール式エージェントフレームワーク。
リアルタイムの環境変化に適応するために計画を積極的に予測し、動的に調整し、タスク成功率を向上させます。
スクリーンショット入力のみを使用して、複数の接地エキスパートを利用してUI要素を正確に特定します。
Agent S/S2フレームワークはオープンソースであり、コミュニティの参加と技術の透明性を促進します。
個人向け製品はユーザーのデバイス上での実行を強調し、データセキュリティとプライバシー保護を強化します。
ユーザーのデジタル操作を記録し、自動的に再生できるため、反復的なタスクの自動化作成が簡素化されます。
エージェントは実行中にエラーが発生した場合、自己修正のためにさまざまな方法を試すことができ、堅牢性を向上させます。
従来の自動化手法(RPA、API統合)には限界があります。Simular AIは、さまざまなプラットフォームのGUIを直接**認識、推論、操作**できるインテリジェントエージェントの構築に取り組んでいます。私たちの「**コンピューター利用エージェント**」は、画面を観察して状態を理解し、人間のキーボードとマウスの操作を正確にシミュレートし、**高速思考**(直感的反応)と**低速思考**(深い推論)の認知パターンを統合します。
中核技術は、**オープンでモジュール式で拡張可能**なAgent S/S2フレームワークに具体化されています。どちらも、高レベルの計画には**汎用モデル**を使用し、低レベルの実行とインターフェースの「**接地**」には**特殊モデル**を使用するという設計原則に従っています。
技術次元 | Agent S | Agent S2 (革新点) |
---|---|---|
計画能力 | 経験強化型階層計画 | **プロアクティブ階層計画 (PHP)**: 将来の状態を予測し、計画を動的に調整 |
人間とコンピューターのインターフェース | 基本エージェント-コンピューターインターフェース (ACI) | **拡張ACI**: エキスパートモジュールにタスクをインテリジェントに割り当て |
GUI要素のローカライズ | マルチモーダル入力に依存、アクセシビリティAPIによる制限あり | **混合接地 (MoG)**: スクリーンショットのみを使用してインターフェース要素を正確に特定 |
学習と適応 | 基本経験記憶メカニズム | **高度な記憶システムと自己修正**: 継続的な学習と戦略調整 |
オープンソースはSimular AIの中核的な差別化要因です。Agent S/S2フレームワークはGitHubで完全にオープンソース化されています。同社はいくつかのアクティブリポジトリ(Agent-S、OpenACI、pysimularなど)を維持し、開発者交流を促進するためにDiscordコミュニティを設立しました。フレームワークの使用には、Python環境とDockerの構成が必要であり、外部LLMサービスと特殊な接地モデルに依存します。
製品設計は、ユーザーと協調するAIエージェントを中心に展開され、**人間とコンピューターの協調**とユーザー制御を強調します。セキュリティ、応答性、エクスペリエンスを向上させるために**ローカル実行(オンデバイス)**に焦点を当てています。デジタルアクションの記録、共有、再生機能を提供します。
さまざまなユーザーニーズに対応する一連の製品を提供します:
プラン名 | 価格 | 主な機能 | 対象ユーザー | 利用可能なアドオン |
---|---|---|---|---|
無料プラン | 月額$0 | 基本ワークスペースツール、公開コミュニティアクション、プライベートアクションなし | 個人の入門ユーザー | なし |
プレミアムプラン | 月額$19.99/デバイス | 無料プランの機能を含む、プライベート/チームチャンネルアクション、ローカル実行 | プライバシー/コラボレーションが必要な個人/チーム | サーバー、コンシェルジュ |
Simular for Business | 営業担当者にお問い合わせください | 自律型デジタル従業員、エンタープライズグレードの機能とサービス | エンタープライズユーザー | カスタムサービス |
プレミアムアドオンサービス | ||||
サーバー | +月額$39.99/デバイス | Simularホストサーバー、200エージェント時間を含む、追加$0.10/時間 | クラウドコンピューティング能力が必要なユーザー | - |
コンシェルジュ | 営業担当者にお問い合わせください | 自分でアクションを作成せずに、カスタム結果を得るためにSimularエキスパートに依頼 | エキスパートサービスが必要なユーザー | - |
このセグメントは急速に発展しており、大きな注目と投資を集めています。中核的な目標には、ワークフローの自動化、タスクの実行、コード生成、データ分析、ソフトウェアインタラクション(GUI/API)が含まれます。
多様な技術的経路:直接的なGUIインタラクション、APIオーケストレーション、コード生成、対話型AI、ノーコード/ローコードプラットフォーム。
Simular AIは多次元的な競争に直面しています:
**直接GUI自動化競合他社:** OpenAI Operator/CUA, Manus AI, Genspark Superagent, Ace, Proxy AI.
**より広範なAIエージェントフレームワーク/プラットフォーム:** LangChain, AutoGen, CrewAI, ノーコード/ローコードプラットフォーム (Gumloop, n8n, Google, Microsoft, UiPathなど), その他のオープンソースエージェント (Rasa, Haystackなど).
**既存の生産性スイート:** Microsoft 365 Copilot, Google Workspace AI.
競合他社 | 焦点 | 技術/方法 | オープンソース | ユースケース | 差別化 |
---|---|---|---|---|---|
Simular AI | GUI自動化 | モジュール式(MoG, PHP), 人間のような対話, スクリーンショット分析 | はい(コア) | 個人/企業自動化 | オープンソース, ローカル実行, 人間協調, SOTA |
OpenAI Operator | GUI自動化 | GPT-4o, タスク分解 | いいえ(モデル) | フォーム/Eコマース | OpenAIエコシステム, 強力なベースモデル |
Manus AI | 汎用AIエージェント(GUI) | マルチエージェント協調, またはClaude 3.xを使用 | いいえ | 複雑なタスク自動化 | 高い注目度/資金調達額, 信頼性に懸念 |
Genspark Superagent | APIオーケストレーション/ツール呼び出し | ハイブリッドエージェント(9+モデル), 80+ツール, API統合 | いいえ | 広範なコンピュータータスク | ハイブリッドエージェント, 豊富なツールセット, API重視 |
Ace | GUI自動化 | 直接ローカルK/M制御, 観察学習 | いいえ | 高速デスクトップタスク | ローカル直接制御, 速度を主張 |
Proxy AI | Webブラウジング自動化 | 並列処理(マルチエージェント), 自然言語コマンド | いいえ | Webリサーチ/データ収集/フォーム入力 | Web重視, 並列処理による高速化 |
LangChain | LLMアプリケーションフレームワーク | プロンプト連鎖, データ統合, エージェントモジュール | はい | 様々なLLMアプリ構築 | 広範なエコシステム, 柔軟, GUI特化ではない |
AutoGen | マルチエージェント会話フレームワーク | マルチエージェント調整, コード生成, 自己修正 | はい | 複雑なワークフロー, プログラミングタスク | Microsoftサポート, コード/マルチエージェント対話に強い |
CrewAI | マルチエージェントオーケストレーションフレームワーク | ロールプレイングエージェント協調, タスク委任 | はい | 協調型タスク自動化 | 高いユーザビリティ, エージェントチーム調整に焦点 |
UiPath Agent Builder | ローコードプラットフォーム | ビジュアルデザイン, UiPathエコシステム統合 | いいえ | エンタープライズRPA/自動化 | エンタープライズ重視, UiPathとの深い統合 |