Salesforce AI研究、新たなマルチモーダルモデルBLIP-3-Videoを発表:低コストで動画理解を実現
Salesforce AI研究チームは最近、新たなマルチモーダル言語モデルであるBLIP-3-Videoを発表しました。動画コンテンツの急増に伴い、動画データを効率的に処理することが喫緊の課題となっています。このモデルは、自動運転からエンターテインメントまで、あらゆる業界で動画理解の効率と効果を高めることを目指しています。従来の動画理解モデルは、多くの場合、動画をフレームごとに処理して大量の視覚情報を生成していました。このプロセスは、膨大な計算資源を消費するだけでなく、処理能力も大きく制限していました。