Mini-Geminiは、香港中文大学終身教授の賈佳亞教授のチームによって開発されたマルチモーダルモデルです。正確な画像理解能力と高品質のトレーニングデータを持ちます。画像推論と生成を組み合わせ、様々な規模のバージョンを提供しており、その性能はGPT-4やDALLE-3に匹敵します。Mini-Geminiは、Geminiのビジュアルデュアルブランチ情報マイニング方法とSDXL技術を採用し、畳み込みニューラルネットワークで画像をエンコードし、Attention機構を用いて情報を抽出し、同時にLLMを用いてテキストを生成することで、2つのモデルを連携させています。