マイクロソフト、OmniParser V2をオープンソース化：大規模言語モデルによるGUIの理解と操作を実現

AIbase基地

公開日AIニュース · 1 分で読めます · Feb 17, 2025

1.2k

マイクロソフトは最近、Windowsオペレーティングシステム向けの大規模言語モデルOmniParserのアップグレード版であるOmniParser-v2.0を発表しました。このモデルはデスクトップとウィンドウの要素を認識し、それらと対話できるため、AIエージェント技術がパソコンの完全自動化に向けて大きく前進したことを示しています。

OmniParser-v2.0の重要な機能は、デスクトップ環境の認識と対話能力です。つまり、このモデルと連携することで、AIエージェントはユーザーの指示を理解するだけでなく、特定のウィンドウを開く、ボタンの位置を特定してクリックする、テキストを入力するなど、Windowsオペレーティングシステムレベルで直接操作を実行できます。

注目すべきは、OmniParser-v2.0がDeepSeek-R1などの他のモデルと連携できる点です。この拡張性により、より強力で柔軟なAIエージェントの構築が可能になります。

業界関係者は、OmniParser-v2.0などのツールの登場により、AIエージェントの下流ツールチェーンがますます充実しつつあると指摘しています。ブラウザの操作からオペレーティングシステムの操作まで、AIエージェントの能力範囲は拡大を続け、今後AIが自動化されたオフィスワークやパーソナルアシスタントなどの分野で大きな役割を果たすことを示唆しています。私たちは、AIによって推進される、よりスマートで効率的なコンピューティング時代へと着実に近づいています。

アドレス：https://huggingface.co/microsoft/OmniParser-v2.0

OmniParser Windowsオペレーティングシステム AIAgent 自動化

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

アマゾン、人工知能を活用して倉庫の自動化と当日配送の効率を向上

アマゾンは、その物流および倉庫システムにおける人工知能の応用を加速させています。これにより、より効率的な配達サービスを実現しようとしています。先日、同社のカリフォルニア州サンタクララにあるLab126デバイス部門では、新しい取り組みの一環として、最新の知能技術を活用したパッケージの迅速かつ正確な配送方法に関する発表が行われました。最初に、アマゾンは新型倉庫ロボットの開発に特化した専門チームを結成しました。これらのロボットは「代理型人工知能」を使用し、複数のタスクをこなすことが可能ですが、単一の作業に限定されません。例えば、これらのロボットは

Jun 6, 2025

アマゾン、人型ロボットのテストを計画荷物配送の自動化を目指して

先ごろ、アマゾンは荷物配送に特化した人型ロボットのソフトウェアを開発中です。この取り組みにより、配送業務の自動化が徐々に実現される見込みです。この計画は、アマゾンがその物流効率を向上させる上で重要な一歩となります。匿名の関係者によると、このロボットは現在、人間の配送業者が行っている一部の作業を遂行できるようになります。具体的には、荷物の輸送や配達のプロセスにおいて活躍する予定です。EC事業の拡大に伴い、荷物配送の需要も増加しています。アマゾンは世界最大級のオンライン小売業者の一つであるため、さらなる需要に対応するために革新的な解決策を模索しています。

Jun 5, 2025

Meta、AI を活用した広告制作の完全自動化を計画

Jun 3, 2025

メタ社、AIのセキュリティリスクの90％を自動化したことに対する懸念

Jun 3, 2025

グローバル初のAIエージェンシーブラウザOpera Neonが発表インテリジェントチャットと自動化タスクがウェブ4.0時代をリード

Opera社はその新しいAI駆動型エージェンシーブラウザOpera Neonの正式なリリースとアルファ版の応募者リストの公開を発表しました。このブラウザは独自のエージェント機能でユーザーとネットワークとのインタラクションを再定義し、インテリジェントチャット、タスクの自動化、コンテンツの作成など革新的な特徴を搭載しています。AIベースによってOpera Neonの最新の注目点とそれが将来の閲覧体験に与える影響が整理されました。「世界初のエージェンシーブラウザ」: ネットワーキング体験の再定義

May 29, 2025

AIデイリーニュース：アリが長文の深層思考モデルQwenLong-L1を開源しました；GPT-4oの音声モードに歌う機能が追加されました；Mita AI Searchが新しい急速モデルをリリース

May 27, 2025

120

中国情報通信研究院がソフトウェア開発インテリジェントエージェントの標準を発表

最近、中国情報通信研究院（信通院）が Tencent、Alibaba、Huawei を含む20社以上の著名な企業と連携し、『ソフトウェアエンジニアリングインテリジェントエージェントに関する技術および適用要件第1部: 開発インテリジェントエージェント』を共同で発表しました。この標準の発表により、AIインテリジェントエージェントの研究開発と適用は新たな段階に入ります。画像出典注記: 画像はAIによって生成され、画像ライセンス提供サービスのMidjourneyより提供されています。新規格は技術能力とサービス能力の2つの側面から、開発インテリジェントエージェントの能力構築と適用要件について詳細に解説しています

May 27, 2025

マイクロソフトがMagentic-UIをオープンソース化 - 人機間協調Web自動化を再定義

May 23, 2025

240

自動化研究とツールの呼び出し：Minion-Agentブラウザ操作の統合とMCPによるインテリジェントタスクフレームワーク

May 19, 2025

秘書AIツール発表　自動化されたソーシャルメディア分析で多様な場面に対応

AI駆動型のメディアツール「Secretary」が正式に発表されました。ソーシャルメディアコンテンツの自動追跡と分析に特化し、結果をMarkdown形式で微信プラットフォームにプッシュします。AIbaseの情報によると、SecretaryはTruth SocialとTwitter（現X）の2つのプラットフォームに対応し、ユーザーは異なるアカウントに金融、政治、テクノロジーなど、カスタマイズされた分析テーマを設定し、複数のチームにターゲットを絞ったプッシュを実現できます。このツールの発表は、開発者と企業ユーザーの間で大きな反響を呼んでいます。

Apr 25, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要