Kürzlich hat das Google-Forschungsteam das neue visuelle Sprachmodell PaLI-3 vorgestellt. Dieses Modell weist im Vergleich zu größeren Modellen weniger Parameter auf, liefert aber dennoch bessere Ergebnisse. Durch die Verwendung eines kontrastiven vortrainierten Bildencoders zeichnet sich PaLI-3 durch herausragende Leistungen in verschiedenen Lokalisierungs- und Textverständnisaufgaben aus. PaLI-3 erzielte in mehreren visuellen Frage-Antwort-Datensätzen die besten Ergebnisse und zeigt damit ein starkes Verständnis multimodaler Informationen. Der Vergleich zwischen klassifikatorischem und kontrastivem Vortraining zeigte, dass letzteres zu effizienteren visuellen Sprachmodellen führt.
Google präsentiert PaLI-3: Leistungsstarkes visuell-linguistisches Modell mit reduzierten Parametern

学术头条
Dieser Artikel stammt aus dem AIbase-Tagesbericht
Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.