Pixtral-12B-2409は、Mistral AIチームによって開発されたマルチモーダルモデルです。120億パラメーターのマルチモーダルデコーダーと4億パラメーターのビジョンエンコーダーを含みます。このモデルはマルチモーダルタスクにおいて優れた性能を示し、様々なサイズの画像に対応し、テキストベンチマークテストでも最先端の性能を維持しています。画像とテキストデータの処理が必要な高度なアプリケーション(画像キャプション生成、ビジュアルクエスチョン・アンサーなど)に適しています。