Kürzlich hat das Google-Forschungsteam das neue visuelle Sprachmodell PaLI-3 vorgestellt. Dieses Modell weist im Vergleich zu größeren Modellen weniger Parameter auf, liefert aber dennoch bessere Ergebnisse. Durch die Verwendung eines kontrastiven vortrainierten Bildencoders zeichnet sich PaLI-3 durch herausragende Leistungen in verschiedenen Lokalisierungs- und Textverständnisaufgaben aus. PaLI-3 erzielte in mehreren visuellen Frage-Antwort-Datensätzen die besten Ergebnisse und zeigt damit ein starkes Verständnis multimodaler Informationen. Der Vergleich zwischen klassifikatorischem und kontrastivem Vortraining zeigte, dass letzteres zu effizienteren visuellen Sprachmodellen führt.