Florence-2 ist ein von Microsoft entwickeltes, hochentwickeltes visuelles Basismodell, das einen promptbasierten Ansatz zur Bearbeitung einer breiten Palette visueller und visuell-linguistischer Aufgaben verwendet. Das Modell kann einfache Textprompts interpretieren und Aufgaben wie Beschreibungen, Objekterkennung und Segmentierung ausführen. Es nutzt den FLD-5B-Datensatz mit 5,4 Milliarden Bildern und 5,4 Milliarden annotierten Daten und beherrscht das Multi-Task-Learning. Die Sequenz-zu-Sequenz-Architektur des Modells ermöglicht hervorragende Leistungen sowohl in Zero-Shot- als auch in Fine-Tuning-Szenarien und beweist seine Wettbewerbsfähigkeit als visuelles Basismodell.