Im Strom der Technologie hat das SAIL-Team von Douyin gemeinsam mit dem LV-NUS Lab eine neue multimodale große Modell namens SAIL-VL2 entwickelt. Dieses neue Modell übertrifft bei komplexen Schlussfolgerungsaufgaben viele ähnliche Modelle, obwohl es nur über einen kleineren Parameterumfang verfügt, und kann sogar mit größeren geschlossenen Modellen konkurrieren. Dieser durchschlagende Fortschritt verwandelt zweifellos die Anwendungsmöglichkeiten kleiner Modelle.

Die Parametereinstellungen von SAIL-VL2 sind 2B und 8B, und es erzielte Leistungsfortschritte auf 106 Datensätzen, insbesondere bei komplexen Schlussfolgerungsbewertungsbenchmarks wie MMMU und MathVista. Das Modell zeigt ein neues Paradigma: „Kleine Modelle können auch starke Fähigkeiten haben“. Um dies sicherzustellen, haben die Forscher Innovationen in drei Bereichen – Daten, Training und Architekturdesign – umgesetzt.

image.png

In der Architekturgestaltung hat SAIL-VL2 eine seltene Mischung aus Experten (MoE) eingeführt, um die Leistung und die Recheneffizienz zu optimieren. Der visuelle Encoder SAIL-ViT verwendet eine schrittweise Optimierung, um schrittweise die Ausrichtung zwischen Bild und Sprache zu verbessern. Diese innovative Gestaltung ermöglicht es SAIL-VL2, bei der Schlussfolgerung nur einige Parameter zu aktivieren und somit die Recheneffizienz des Modells stark zu steigern.

Auf der Ebene der Daten hat SAIL-VL2 eine hochwertige multimodale Korpus gebaut und durch Bewertungsfilterung und synthetische Verstärkung sichergestellt, dass die Daten genau und vielfältig sind. Gleichzeitig hat das Team auch ein schrittweises Trainingsrahmenentwurf entworfen, das vom grundlegenden Wahrnehmungsschritt allmählich zu komplexen Schlussfolgerungen übergeht, wodurch das Modell in verschiedenen Aufgaben besser abschneidet.

Mit einer vollständigen Optimierung hat SAIL-VL2 signifikante Fortschritte bei der Leistung des Grundmodells erzielt. Daten zeigen, dass dieses Modell in vielen Benchmark-Tests hervorsticht, und das 8B-Modell hat bereits mit den neuesten GPT-4o vergleichbare Schlussfolgerungsfähigkeiten. Solche Fortschritte bringen nicht nur neuen Hoffnung für die Wissenschaftscommunity, sondern eröffnen auch neue Wege für die zukünftige Anwendung multimodaler Modelle.