先行投影アライメントによる、統合視覚表現学習
AnasMohamed
Vision Transformerアーキテクチャに基づく大規模視覚言語モデルで、画像とテキストのクロスモーダル理解をサポート
LanguageBind
Video-LLaVAはオープンソースのマルチモーダルモデルで、マルチモーダル指令追従データで大規模言語モデルを微調整することで訓練され、交互する画像とビデオを生成することができます。
Video-LLaVAは投影前アライメント学習により視覚表現を統一するマルチモーダルモデルで、画像と動画の視覚推論タスクを同時に処理できます。