In der Welt der KI ist es weitaus schwieriger, Maschinen Videos verstehen zu lassen als Bilder. Videos sind dynamisch, enthalten Ton, Bewegung und komplexe Szenen. Frühere KI-Systeme waren beim Verstehen von Videos oft ratlos und überfordert.

Doch VideoPrism könnte dies ändern. Es handelt sich um einen von Googles Forschungsteam entwickelten Video-Encoder, der mit einem einzigen Modell in verschiedenen Videoverstehensaufgaben den Stand der Technik erreicht. Egal ob es um die Klassifizierung, Lokalisierung oder die Generierung von Untertiteln geht, oder sogar um das Beantworten von Fragen zum Videoinhalt – VideoPrism meistert all dies mit Leichtigkeit.

image.png

Wie wird VideoPrism trainiert?

Das Training von VideoPrism gleicht dem Unterrichten eines Kindes, die Welt zu beobachten. Zunächst wird es mit verschiedensten Videos gefüttert, von alltäglichen Szenen bis hin zu wissenschaftlichen Beobachtungen. Anschließend wird es mit „hochwertigen“ Video-Untertitel-Paaren und verrauschten parallelen Texten (z. B. von der automatischen Spracherkennung) trainiert.

Vor-Trainingsmethode

Daten: VideoPrism verwendet 36 Millionen hochwertige Video-Untertitel-Paare und 5820 Millionen Videosequenzen mit verrauschten parallelen Texten.

Modellarchitektur: Basiert auf dem Standard Visual Transformer (ViT) mit faktorisiertem Design in Raum und Zeit.

Trainingsalgorithmus: Umfasst zwei Phasen: Video-Text-Kontrasttraining und Maskiertes Video-Modeling.

image.png

Während des Trainings durchläuft VideoPrism zwei Phasen. In der ersten Phase lernt es durch kontrastives Lernen und globale-lokale Destillation die Zusammenhänge zwischen Video und Text. In der zweiten Phase verbessert es durch Maskiertes Video-Modeling sein Verständnis des Videoinhalts weiter.

Die Forscher testeten VideoPrism in mehreren Videoverstehensaufgaben, und die Ergebnisse waren beeindruckend. In 33 Benchmark-Tests erreichte VideoPrism in 30 den Stand der Technik. Sowohl bei der Beantwortung von Fragen zu Online-Videos als auch bei computergestützten Sehaufgaben im wissenschaftlichen Bereich zeigte VideoPrism seine Leistungsfähigkeit.

VideoPrism eröffnet neue Möglichkeiten im Bereich des KI-basierten Videoverständnisses. Es kann KI nicht nur helfen, Videoinhalte besser zu verstehen, sondern auch in verschiedenen Bereichen wie Bildung, Unterhaltung und Sicherheit eine wichtige Rolle spielen.

VideoPrism steht jedoch auch vor Herausforderungen, wie z. B. der Verarbeitung langer Videos und der Vermeidung von Verzerrungen während des Trainings. Dies sind Fragen, die in zukünftigen Forschungsarbeiten behandelt werden müssen.

Paper-Adresse: https://arxiv.org/pdf/2402.13217