SPARC ist eine einfache Methode zur Vorabtrainierung von Bild-Text-Paaren, die darauf abzielt, feinkörnigere multimodale Repräsentationen aus Bild-Text-Paaren zu trainieren. Durch die Verwendung eines sparsamen Ähnlichkeitsmaßes und der Gruppierung von Bildblöcken und Sprachmarken lernt SPARC, Repräsentationen zu kodieren, die sowohl globale als auch lokale Informationen enthalten. Dies geschieht durch den Vergleich von feinkörnigen Sequenzverlusten und kontrastiven Verlusten zwischen globalen Bild- und Texteingabedaten. SPARC zeigt Verbesserungen bei Aufgaben auf Bilderbene (grobkörnige Informationen) und Regionalebene (feinkörnige Informationen), darunter Klassifizierung, Retrieval, Objekterkennung und Segmentierung. Darüber hinaus verbessert SPARC die Zuverlässigkeit des Modells und seine Fähigkeit zur Bildbeschreibung.