Cloud BOT Operatorは、自然言語での指示に基づいてAIエージェントがブラウザ操作を実行する機能です。OpenAIをはじめとする最新のAIモデルを活用し、複雑な判断を含む操作にも対応します。従来の定型業務自動化を超えた、柔軟で高精度な業務効率化を実現します。
Cloud BOT Operatorでは、自然言語での指示をAIに伝える「Operatorタスク」を作成し、AIエージェントが仮想ブラウザを自律的に操作します。ページ構成の変更や複雑なUIにも柔軟に対応し、完了後は従来のRPAタスクに引き継ぐことが可能です。
Operator機能の使い方はこちらCloud BOT Operatorでは、用途やコストに応じて以下のAIモデルを選択できます。これらは大きく2つのカテゴリに分類されます。
HTML構造を解析し、ユーザーのプロンプトに従ってAIがブラウザ操作を行います。高速かつ効率的な操作が可能です。
モデル名 | 特徴 |
---|---|
構造認識 - ECO | 低コストで高速、シンプルな操作に適したモデル(gemini-2.0-flashを採用) |
構造認識 - Smart | 高性能かつ高速、柔軟かつ安定性の高いモデル(gpt-4.1を採用) |
ページを画像として視覚的に認識し、ユーザーの指示に基づいてAIが操作を行います。構造認識モデルに比べ精度は高いですが、処理速度はやや低下します。
モデル名 | 特徴 |
---|---|
視覚認識 | 視覚認識による操作が可能な高性能モデル(computer-use-previewを採用) |
ニュースや広告など不定期に表示されるポップアップを検知し閉じることで、RPAのスムーズな動作をサポートします。
画毎月並び順が変動する項目のクリック操作や目的の画像を選択するようなシーンにおいて、AIによる判断を含めた自動操作を実現できます。
異なるWebサイトに対する共通した検索やデータ抽出操作を自然言語で簡単に指示し、一元的な自動化を実現します。
Cloud BOT Agentと組み合わせることで、IP制限のある外部サービスや、社内ネットワーク内のWebシステムに対しても、安全かつ柔軟にAIエージェントによる自動操作を実現できます。
Cloud BOT Agentに関してはこちら
クラウドBOTはクライアント証明書が必要なセキュアなWebシステムにも対応しており、Operatorの自動操作も同様にクライアント証明書により保護できます。
クライアント証明書の設定に関してはこちら
クラウドBOTが備えるスケジュールトリガーやメール受信トリガーなど、多様なトリガーからCloud BOT Operatorを呼び出すことで、幅広い業務シーンに柔軟に対応できます。
トリガーに関してはこちら
記録されたタスク手順に忠実にBOTが仮想ブラウザを自動操作します。
Operatorタスクが開始されると、Operator(AIエージェント)が仮想ブラウザの操作をリアルタイムで引き継ぎ、プロンプトの指示に応じて自律的に操作を行います。操作完了後は再びBOTに制御が戻され、後続タスクが自動的に実行されます。