先日、マイクロソフトはオープンソースプロジェクトAgentUFOの大幅なアップグレードを発表し、新しいUFO²バージョンをリリースしました。このバージョンでは、OS機能が追加され、Windowsシステムとの深い統合を実現しています。これにより、自動化タスクの実行効率が向上するだけでなく、ユーザーは複雑な操作をより簡単に実行できるようになりました。

QQ_1745715630574.png

UFO²の顕著な特徴の1つは、WindowsのネイティブAPIとCOMインターフェースを直接呼び出せる点です。従来のロボティックプロセスオートメーション(RPA)と比較して、複雑な業務を実行する際に、より効率的で正確になります。例えば、Excelで表データをグラフに変換する場合、従来のRPAではマウスのクリックを複数回シミュレートする必要がありますが、UFO²ではAPI呼び出し1回で簡単に完了し、視覚的な位置特定やマウスシミュレーションの手間を省けます。

テストデータによると、UFO²は自動化タスクの成功率において、OpenAIのOperatorを大幅に上回っています。さまざまなテストシナリオにおいて、UFO²の成功率はそれぞれ30.5%と32.7%に達しましたが、Operatorの成功率は20.8%と14.3%にとどまりました。さらに、UFO²は複雑なタスクやアプリケーションを跨いでの操作においてもOperatorを明らかに上回り、非標準インターフェースへの適応性も優れています。

QQ_1745715651841.png

UFO²の中核制御コンポーネントであるHostAgentは、ユーザーの指示を解析し、アプリケーションのライフサイクルを管理し、AppAgentsの実行を調整します。ユーザーが自然言語で自動化指示を出すと、HostAgentはタスクを複数のサブタスクに分解し、対応するAppAgentsに割り当てて実行します。

各AppAgentは特定のWindowsアプリケーションに特化しており、より高い効率でタスクを実行できます。UFO²は、視覚入力とアプリケーションのメタデータを組み合わせたハイブリッド制御検出メカニズムも導入し、GUI要素に対するシステムの認識能力を向上させています。この革新により、AppAgentは標準および非標準環境の両方で安定して動作できます。

もう1つの注目すべき革新は、UFO²のピクチャーインピクチャーモードです。この機能により、自動化タスクとユーザーのメインデスクトップが分離され、ユーザーはメインデスクトップで通常どおり操作でき、自動化タスクは独立した仮想デスクトップで実行されます。この設計により、ユーザーエクスペリエンスが向上し、システムの干渉と潜在的なセキュリティリスクが軽減されます。

UFO²のこれらの新機能は、マイクロソフトの自動化分野における最新の技術進歩を示しており、ユーザーにより効率的で柔軟な作業環境を提供します。

オープンソースアドレス:https://github.com/microsoft/UFO?tab=readme-ov-file

要点:

1. 🚀 UFO²はWindowsシステムと深く統合されており、ネイティブAPIを直接呼び出すことで、自動化効率を向上させます。

2. 📊 UFO²の自動化タスクの成功率は、OpenAIのOperatorを大幅に上回り、優れたパフォーマンスを発揮します。

3. 🖥️ 新しいピクチャーインピクチャーモードにより、自動化タスクとユーザー操作が分離され、ユーザーエクスペリエンスが向上します。