Florence-2 एक उन्नत दृश्य आधार मॉडल है जिसे Microsoft द्वारा विकसित किया गया है, जो विभिन्न दृश्य और दृश्य-भाषा कार्यों को संभालने के लिए प्रॉम्प्ट-आधारित दृष्टिकोण का उपयोग करता है। यह मॉडल सरल पाठ प्रॉम्प्ट को समझ सकता है और छवि विवरण, ऑब्जेक्ट पहचान और विभाजन जैसे कार्यों को कर सकता है। यह FLD-5B डेटासेट का उपयोग करता है, जिसमें 5.4 बिलियन एनोटेशन हैं और 12.6 करोड़ छवियां शामिल हैं, और बहु-कार्य सीखने में कुशल है। इसकी सीक्वेंस-टू-सीक्वेंस आर्किटेक्चर इसे शून्य-शॉट और ट्यून किए गए सेटिंग्स दोनों में उत्कृष्ट प्रदर्शन करने की अनुमति देती है, जो इसे एक प्रतिस्पर्धी दृश्य आधार मॉडल साबित करता है।