KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

Al hardware

die artillerie der artillerie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation

Taobao stellt innovative Ausrichtungsmethode zur Lösung von Halluzinationsproblemen in visuellen großen Sprachmodellen vor

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 3 Minuten Lesezeit · Jan 20, 2025

127

In den letzten Jahren haben große visuelle Sprachmodelle (Large Vision Language Models, LVLMs) außergewöhnliche Fähigkeiten im Bildverständnis und in crossmodalen Aufgaben gezeigt. Gleichzeitig ist jedoch das Problem der „Halluzinationen“ immer stärker in den Vordergrund gerückt. Um dieser Herausforderung zu begegnen, hat das Future Living Lab Team der Taobao-Gruppe eine neue Methode namens „Token Preference Optimization“ (TPO) entwickelt und einen selbstkalibrierenden visuell verankerten Belohnungsmechanismus eingeführt.

Die größte Innovation von TPO liegt in der automatisierten Erzeugung von Belohnungssignalen auf Token-Ebene. Diese Methode ermöglicht die automatische Identifizierung visuell verankerter Token in Präferenzdaten, wodurch die mühsame manuelle Feinannotation vermieden wird. Gleichzeitig wird jedem Token während des Trainings eine Belohnung zugewiesen, die seinen Grad der Abhängigkeit von visuellen Informationen widerspiegelt. Dieses selbstkalibrierende, visuell verankerte Belohnungssignal zielt darauf ab, die Abhängigkeit des Modells von visuellen Informationen zu optimieren und so das Auftreten von Halluzinationen effektiv zu reduzieren.

Studien zeigen, dass Modelle, die TPO verwenden, in mehreren Bewertungsbenchmarks deutlich besser abschneiden als herkömmliche Methoden, insbesondere bei komplexeren Aufgaben. Die Antworten des Modells basieren dabei zunehmend auf Bildinformationen und weniger auf dem Vorwissen des Sprachmodells. Dieser Fortschritt verbessert nicht nur das Verständnis des Modells, sondern liefert auch eine wichtige theoretische Grundlage für weitere Forschung.

Darüber hinaus führte das Forschungsteam Ablationsexperimente mit verschiedenen Parametern von TPO durch und stellte fest, dass optimierte Rausch- und Belohnungsverteilungsstrategien die Modellleistung weiter verbessern können. Diese Erkenntnis weist den Weg für zukünftige Forschung und Anwendung von visuellen Großmodellen.

Zusammenfassend lässt sich sagen, dass dieses innovative Ergebnis von Taobao neue Ansätze für die Technologie der multimodalen Ausrichtung bietet und die Anwendung von KI-Technologien im Leben und Konsumsektor vorantreibt.

Visuelle große Sprachmodelle Token-Präferenzoptimierung Taobao-Gruppe Selbstkalibrierung

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe