マイクロソフトAzure AIは、MM-Vidを発表しました。これは、GPT-4Vと専用ツールを統合し、長尺動画を解釈して視覚障碍者にとってより良い体験を提供するものです。MM-Vidは、マルチモーダル理解、一貫性のあるナレーションなどの重要なモジュールを通じて、現実世界の動画を包括的に理解します。実験では、質疑応答や人物認識などのタスクで優れた性能を示し、継続的に動画フレームの入力を受け入れる能力を備えています。この革新は、大規模マルチモーダルモデル分野の発展を促進し、動画理解のためのより強力なソリューションを提供すると期待されています。GPT-4Vの成功した統合は、一般的な動画理解のニーズと視覚障碍者のニーズの両方に役立ちます。