アリババ、マルチモーダル大規模言語モデルmPLUG-Owl3を発表 2時間映画を4秒で視聴可能
アリババのチームが最新発表したmPLUG-Owl3は、汎用的なマルチモーダル大規模言語モデルです。その核心能力は、長い画像シーケンスの理解にあります。超注意力モジュールを導入することで、mPLUG-Owl3は視覚情報と言語情報を効率的に処理し、画像や動画などのマルチモーダルデータに対する深い理解と対話を実現します。このモデルは、推論効率、画像処理能力、そしてマルチモーダル知識の応用において顕著な進歩を遂げ、特に動画理解分野では、2時間の映画を4秒で「視聴」し、関連する質問に正確に回答することができます。