マイクロソフト、OmniParser V2.0を発表:スクリーンショットをLLMが処理可能な構造化形式に変換
マイクロソフトは最近、ユーザーインターフェース(UI)のスクリーンショットを構造化形式に変換することを目的とした新しい解析ツール、OmniParser V2.0を発表しました。OmniParserは、大規模言語モデル(LLM)ベースのUIエージェントのパフォーマンスを向上させ、ユーザーが画面上の情報をより良く理解し操作するのに役立ちます。このツールのトレーニングデータセットには、インタラクティブアイコン検出データセットが含まれており、このデータセットは人気のあるWebサイトから厳選され、自動的にアノテーションが付けられて、クリック可能および操作可能な領域が強調表示されています。さらに、