Florence-2 es un modelo base visual avanzado desarrollado por Microsoft que utiliza un método basado en indicaciones para manejar una amplia gama de tareas de visión y visión-lenguaje. El modelo puede interpretar indicaciones de texto sencillas y realizar tareas como descripción, detección de objetos y segmentación. Aprovecha el conjunto de datos FLD-5B, que contiene 540 millones de imágenes con 5.400 millones de anotaciones, y domina el aprendizaje multitarea. La arquitectura de secuencia a secuencia del modelo le permite destacar tanto en entornos de cero ejemplos como de ajuste fino, demostrando ser un modelo base visual competitivo.