マイクロソフト、マルチモーダルAIモデル「Magma」を発表:視覚、言語、動作決定能力を統合
先日、マイクロソフト研究チームと複数の大学研究者らが、「Magma」というマルチモーダルAIモデルを発表しました。このモデルは、画像、テキスト、ビデオなど複数のデータタイプを処理・統合し、デジタルと物理環境の両方で複雑なタスクを実行するために設計されています。テクノロジーの進歩に伴い、マルチモーダルAIエージェントは、ロボティクス、バーチャルアシスタント、ユーザーインターフェースの自動化など、幅広い分野で活用されています。従来のAIシステムは、視覚言語理解やロボット操作に特化していることが多く、両者を統合することが困難でした。