SPARC
Verbessertes feinkörniges Verständnis bei der Bild-Text-Vorabtrainierung
Normales ProduktBildBild-Text-VorabtrainierungFeinkörniges Verständnis
SPARC ist eine einfache Methode zur Vorabtrainierung von Bild-Text-Paaren, die darauf abzielt, feinkörnigere multimodale Repräsentationen aus Bild-Text-Paaren zu trainieren. Durch die Verwendung eines sparsamen Ähnlichkeitsmaßes und der Gruppierung von Bildblöcken und Sprachmarken lernt SPARC, Repräsentationen zu kodieren, die sowohl globale als auch lokale Informationen enthalten. Dies geschieht durch den Vergleich von feinkörnigen Sequenzverlusten und kontrastiven Verlusten zwischen globalen Bild- und Texteingabedaten. SPARC zeigt Verbesserungen bei Aufgaben auf Bilderbene (grobkörnige Informationen) und Regionalebene (feinkörnige Informationen), darunter Klassifizierung, Retrieval, Objekterkennung und Segmentierung. Darüber hinaus verbessert SPARC die Zuverlässigkeit des Modells und seine Fähigkeit zur Bildbeschreibung.
SPARC Neueste Verkehrssituation
Monatliche Gesamtbesuche
25537072
Absprungrate
44.24%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:47