Florence-2 माइक्रोसॉफ्ट द्वारा विकसित एक उन्नत दृश्य आधार मॉडल है जो व्यापक दृश्य और दृश्य-भाषा कार्यों को संभालने के लिए प्रॉम्प्ट-आधारित दृष्टिकोण का उपयोग करता है। यह मॉडल सरल पाठ प्रॉम्प्ट की व्याख्या कर सकता है और विवरण, ऑब्जेक्ट पहचान और सेगमेंटेशन जैसे कार्य कर सकता है। यह 5.4 अरब छवियों के FLD-5B डेटासेट का उपयोग करता है जिसमें 54 अरब एनोटेशन हैं, और बहु-कार्य सीखने में कुशल है। मॉडल की अनुक्रम-से-अनुक्रम वास्तुकला इसे शून्य-शॉट और ठीक-ट्यूनिंग सेटिंग्स दोनों में उत्कृष्ट प्रदर्शन करने की अनुमति देती है, जिससे यह एक प्रतिस्पर्धी दृश्य आधार मॉडल साबित होता है।