Florence-2は、マイクロソフトが開発した高度なビジョン基礎モデルであり、プロンプトベースのアプローチを用いて幅広いビジョンおよびビジョン言語タスクを処理します。このモデルは、簡単なテキストプロンプトを解釈し、記述、物体検出、セグメンテーションなどのタスクを実行できます。5億4000万枚の画像と54億個の注釈を含むFLD-5Bデータセットを使用して学習されており、マルチタスク学習に長けています。シーケンスツーシーケンスアーキテクチャにより、ゼロショットおよびファインチューニング設定の両方で優れた性能を示し、競争力のあるビジョン基礎モデルであることが証明されています。