カリフォルニア大学サンタクルーズ校がMiniGPT-5モデルを開発し、テキストと画像の有効な連携を実現しました。MiniGPT-5は、マルチモーダルエンコーダーとGenerative Vokens技術を採用し、一貫性があり高品質なテキストと画像を生成します。複数のデータセットにおけるテストで、比較ベースラインを上回る性能を示し、強力な適応能力を備えていることが明らかになりました。
画像とテキストを生成するマルチモーダルモデル