In den letzten Jahren haben große visuelle Sprachmodelle (Large Vision Language Models, LVLMs) außergewöhnliche Fähigkeiten im Bildverständnis und in crossmodalen Aufgaben gezeigt. Gleichzeitig ist jedoch das Problem der „Halluzinationen“ immer stärker in den Vordergrund gerückt. Um dieser Herausforderung zu begegnen, hat das Future Living Lab Team der Taobao-Gruppe eine neue Methode namens „Token Preference Optimization“ (TPO) entwickelt und einen selbstkalibrierenden visuell verankerten Belohnungsmechanismus eingeführt.
Die größte Innovation von TPO liegt in der automatisierten Erzeugung von Belohnungssignalen auf Token-Ebene. Diese Methode ermöglicht die automatische Identifizierung visuell verankerter Token in Präferenzdaten, wodurch die mühsame manuelle Feinannotation vermieden wird. Gleichzeitig wird jedem Token während des Trainings eine Belohnung zugewiesen, die seinen Grad der Abhängigkeit von visuellen Informationen widerspiegelt. Dieses selbstkalibrierende, visuell verankerte Belohnungssignal zielt darauf ab, die Abhängigkeit des Modells von visuellen Informationen zu optimieren und so das Auftreten von Halluzinationen effektiv zu reduzieren.
Studien zeigen, dass Modelle, die TPO verwenden, in mehreren Bewertungsbenchmarks deutlich besser abschneiden als herkömmliche Methoden, insbesondere bei komplexeren Aufgaben. Die Antworten des Modells basieren dabei zunehmend auf Bildinformationen und weniger auf dem Vorwissen des Sprachmodells. Dieser Fortschritt verbessert nicht nur das Verständnis des Modells, sondern liefert auch eine wichtige theoretische Grundlage für weitere Forschung.
Darüber hinaus führte das Forschungsteam Ablationsexperimente mit verschiedenen Parametern von TPO durch und stellte fest, dass optimierte Rausch- und Belohnungsverteilungsstrategien die Modellleistung weiter verbessern können. Diese Erkenntnis weist den Weg für zukünftige Forschung und Anwendung von visuellen Großmodellen.
Zusammenfassend lässt sich sagen, dass dieses innovative Ergebnis von Taobao neue Ansätze für die Technologie der multimodalen Ausrichtung bietet und die Anwendung von KI-Technologien im Leben und Konsumsektor vorantreibt.