Florence-2 est un modèle de base visuel avancé développé par Microsoft, utilisant une approche basée sur les invites pour traiter un large éventail de tâches de vision et de vision-langage. Ce modèle est capable d'interpréter des invites textuelles simples et d'exécuter des tâches telles que la description d'images, la détection d'objets et la segmentation. Il a été entraîné sur le jeu de données FLD-5B, contenant 5,4 milliards d'images avec 5,4 milliards d'annotations, maîtrisant ainsi l'apprentissage multitâche. Son architecture séquence-à-séquence lui permet d'obtenir d'excellents résultats en zéro-shot et en réglage fin, prouvant qu'il s'agit d'un modèle de base visuel compétitif.