Florence-2 एक नवीन दृश्य आधार मॉडल है जो एकीकृत, प्रॉम्प्ट-आधारित प्रतिनिधित्व के माध्यम से कई कंप्यूटर दृश्य और दृश्य-भाषा कार्यों को संभाल सकता है। यह पाठ प्रॉम्प्ट को कार्य निर्देश के रूप में प्राप्त करने और पाठ के रूप में अपेक्षित परिणाम उत्पन्न करने के लिए डिज़ाइन किया गया है, चाहे वह छवि विवरण, ऑब्जेक्ट पहचान, स्थानीयकरण या विभाजन हो। इस बहु-कार्य अधिगम सेटिंग के लिए बड़े पैमाने पर, उच्च-गुणवत्ता वाले एनोटेट डेटा की आवश्यकता होती है। इसके लिए, हमने संयुक्त रूप से FLD-5B विकसित किया है, जिसमें 5.4 बिलियन समग्र दृश्य एनोटेशन शामिल हैं, जिसमें 126 मिलियन छवियां शामिल हैं, और स्वचालित छवि एनोटेशन और मॉडल परिष्करण की पुनरावृति रणनीति का उपयोग किया गया है। हमने Florence-2 को प्रशिक्षित करने के लिए सीक्वेंस-टू-सीक्वेंस आर्किटेक्चर का उपयोग किया है ताकि विविध और व्यापक दृश्य कार्यों को पूरा किया जा सके। व्यापक मूल्यांकन से पता चलता है कि Florence-2 एक शक्तिशाली दृश्य आधार मॉडल प्रतियोगी है जिसमें अभूतपूर्व शून्य-शॉट और ठीक-ट्यूनिंग क्षमताएं हैं।