Apple hat kürzlich wieder einen großen Knall gemacht, indem es heimlich ein Modell namens FastVLM veröffentlicht hat. Der Name mag vielleicht etwas verwirrend sein, aber im Wesentlichen ist es so, dass dein iPhone auf einmal über eine Art „Feuerauge“ verfügt, das nicht nur komplexe Informationen in Bildern verstehen kann, sondern auch wie ein Scherzkeks mit dir „witzen“ kann! Und das Beste daran ist, dass es unglaublich schnell ist – Apple behauptet, dass die Antwortzeit der ersten „Bemerkung“ um 85-mal schneller ist als bei früheren Modellen. Das ist geradezu spektakulär!

Du hast vielleicht schon öfter das Gefühl gehabt, dass die AI-Hilfen in deinem Handy ein bisschen „dumm und einfältig“ sind und nur nach Befehlen handeln können, während sie bei komplizierten Bildern völlig hilflos sind? Stell dir vor, du zeigst ihr ein komplexes Diagramm und fragst etwas – und sie antworten einfach mit „Das verstehe ich nicht“. Das ist wirklich frustrierend! Aber mit FastVLM könnte dieser Zustand bald vorbei sein!

image.png

Das Ende der „Bildblinden“ Ära: Warum ist es so schwierig, hochauflösende Bilder zu verstehen?

Um die Stärken von FastVLM zu verstehen, müssen wir zuerst verstehen, warum traditionelle AI-Modelle Schwierigkeiten haben, hochauflösende Bilder zu verarbeiten. Stell dir vor, ein hochauflösendes Bild ist wie ein riesiges Informationslagerhaus, in dem Tausende von Pixeln gestapelt sind. Traditionelle visuelle Codierer (du kannst sie als „Augen“ der KI verstehen) generieren dabei eine immense Anzahl von „Visuellen Tokens“ (kann man sich als kleine Fragmente des Bildes vorstellen), die die nachfolgenden Sprachmodelle (KI-„Gehirne“) oft nicht rechtzeitig verarbeiten können. Das führt dazu, dass die Antwort langsam oder sogar fehlerhaft ist.

image.png

Es ist, als würdest du einem kleinen Kind ein extrem komplexes Schatzkarten-Diagramm zeigen, auf dem tausend Schatzpunkte markiert sind. Das Kind wird verwirrt und kann keine schnelle Antwort geben. Genau das Problem haben traditionelle Modelle: Zu viele Informationen, zu wenig Zeit! Außerdem brauchen diese „Visuellen Tokens“ selbst Zeit zur Generierung, was die Antwortgeschwindigkeit weiter verlangsamt.

Daher ist es ein großes Problem, die Leistung visueller Sprachmodelle zu verbessern, insbesondere bei der Interpretation hochauflösender Bilder.

FastVLMs Geheimwaffe: FastViTHD trifft ein!

Um dieses Problem zu lösen, haben Apples Ingenieure ihre geheime Waffe – FastViTHD – vorgeführt! Der Name klingt fast wie ein Science-Fiction-Gerät, aber das Prinzip ist tatsächlich sehr interessant. Traditionelle visuelle Codierer (wie ViT) arbeiten eher „einfach“, indem sie viele „Visuelle Tokens“ generieren. FastViTHD hingegen ist ein „Universalgenie“, das eine „hybride“ Architektur kombiniert, die Convolutional-Layer und Transformer-Layer verwendet.

Convolutional-Layer sind wie erfahrene Detektive, die wichtige Informationen aus Bildern extrahieren und dabei sehr flexibel bei unterschiedlichen Bildgrößen sind. Transformer-Layer dagegen sind wie intelligente Informationssammler, die die von den Detektiven entdeckten Details analysieren. FastViTHD nutzt diese Stärken aus, indem es beim Verarbeiten hochauflösender Bilder intelligent die Anzahl der „Visuellen Tokens“ reduziert. Es ist, als würde der Detektiv nur die wichtigsten Hinweise an den Analysten weitergeben, was den Arbeitsaufwand des Analysten stark reduziert.

Außerdem geht FastViTHD nicht nur darum, weniger Tokens zu generieren, sondern auch die Codierungszeit deutlich zu verkürzen. Das bedeutet, dass dein iPhone schneller „sehen“ und dann „denken“ und antworten kann.

Nichts Konventionelles: Apples „Ladegerät“-Optimierung

Und noch beeindruckender ist, wie FastVLM die Balance zwischen der Anzahl der „Visuellen Tokens“ und der Bildauflösung optimiert – es benutzt einfach nur die Größe des Eingabebildes! Keine zusätzlichen, komplizierten „Token-Pruning“-Prozeduren oder dergleichen. Dies macht die gesamte Modellarchitektur einfacher und effizienter und erleichtert die Ausführung auf Geräten mit begrenzten Ressourcen.

Stell dir vor, du bestellst ein großes Menü. Ein herkömmliches Modell müsste jedes Gericht in winzige Stücke schneiden, bevor es probiert werden kann – das ist zeitaufwendig. FastVLM hingegen braucht nur einen Blick auf das Gesamtgericht und kann bereits sagen, ob es gut schmeckt. Und es passt sich nur an deine „Appetitgröße“ (Eingabe-Bildgröße) an, ohne zusätzliche „Kleinarbeit“ zu benötigen. Ist das nicht klug?

Geschwindigkeit und Effizienz: So schnell wie nie zuvor!

FastVLMs herausragende Leistung ist seine atemberaubende Geschwindigkeit. Im Vergleich zu vergleichbaren Modellen hat FastVLM eine enorme Verbesserung bei der „Time-to-First-Token“ (TTFT). Kurz gesagt, TTFT ist die Zeit, die vergeht, bis der AI die erste Antwort beginnt. Je kürzer diese Zeit, desto schneller scheint die Antwort zu kommen.

Apple hat Tests unter den Bedingungen von LLaVA-1.5 durchgeführt und festgestellt, dass die TTFT um das 3,2-fache beschleunigt wurde! Das bedeutet, dass du kaum merkliche Verzögerungen beim Interagieren mit FastVLM bemerkst.

Noch beeindruckender ist, dass FastVLM bei 1152x1152 hochauflösenden Bildern 85-mal schneller als LLaVa-OneVision ist! 85-mal bedeutet, dass es wahrscheinlich mehrere Antworten innerhalb der Zeit gibt, die du zum Blinzeln benötigst. Außerdem ist der visuelle Kodierer um 3,4-mal kleiner, was das Prinzip „weniger ist mehr“ perfekt illustriert!

Stell dir vor, dass in Zukunft in deinem iPhone keine „Uhrzeigerspinne“ mehr auftaucht, wenn du eine AI-Funktion aktivierst. Die AI wird quasi augenblicklich verstehen, was du möchtest, und dir eine schnelle Antwort geben.

Größe ist nicht alles: Kleine Modelle können auch große Leistungen bringen!

Viele Leute glauben, dass größere Modelle besser sind. Aber FastVLM zeigt uns, dass Größe nicht das einzige Maß ist! Obwohl FastViTHD viel weniger Parameter hat als einige große visuelle Kodierer, bleibt seine Leistung stark.

Im Paper heißt es, dass FastViTHD nur 125,1 Millionen Parameter hat, was viel weniger ist als bei einigen beliebten ViT-Modellen. Trotzdem erzielt es herausragende Ergebnisse in vielen VLM-Aufgaben und übertrifft sogar einige größere Modelle.

Es ist wie bei einem geschickten Sportler, der zwar klein ist, aber durch seine Flexibilität und Effizienz in der Arena trotzdem besser abschneidet als stärkere Gegner. FastVLM ist genau so ein „flexibles und effizientes“ Beispiel.

Training: Je mehr, desto besser!

Natürlich ist ein gutes Modell auch von qualitativ hochwertigen Trainingsdaten abhängig. Der Artikel beschreibt detailliert den Trainingsprozess von FastVLM, einschließlich der Nutzung massenhafter Bild-Text-Paare für Vortraining und der mikrooptimierten Trainingsphasen für verschiedene Aufgaben.

Interessanterweise hat die Forschung herausgefunden, dass auch ein relativ „leichtgewichtiges“ visuelles Kodierer wie FastViTHD bei der Bereitstellung von mehr und höherwertigen Trainingsdaten seine Leistung deutlich verbessern kann. Dies zeigt, dass die Architektur von FastVLM gut skalierbar ist, und mit fortschreitender Datenerweiterung besteht die große Potenzial für weitergehende Verbesserungen.

Es ist wie das Lernen eines intelligenten Kindes: Je mehr hochwertige Materialien es bekommt, desto weiter reicht sein Wissen und desto besser löst es Probleme.

Nicht nur schnell: Performant bis zum Umfallen!

Zusätzlich zur Geschwindigkeit zeigt FastVLM auch herausragende Leistungen bei verschiedenen visuellen Sprachverständnis-Tasks. Der Artikel führt Ergebnisse aus mehreren Benchmarktests wie GQA, TextVQA, POPE und DocVQA auf. Diese Tests umfassen Fragenbeantwortung, Textverständnis, Dokumentenanalyse und Halluzinationen, um die „Intelligenz“ von FastVLM vollständig zu evaluieren.

Die Ergebnisse zeigen, dass FastVLM bei diesen Tests konkurrenzfähig war, insbesondere bei TextVQA und DocVQA, wo das Verständnis von Textinformationen in Bildern entscheidend ist.

Das zeigt, dass FastVLM nicht nur ein „Schnellschütze“ ist, sondern auch ein „Mehrfachfachmann“, der dir helfen kann, komplexe Szenarien zu verstehen.

Die Zukunft ist hier: AI im Handy steht kurz vor dem Start!

Die Veröffentlichung von FastVLM ist ein wichtiger Meilenstein im Bereich der mobilen AI-Entwicklung. Es zeigt, dass es möglich ist, hochperformante visuelle Sprachmodelle auch auf Geräten mit begrenzten Ressourcen wie Smartphones zu implementieren.

Stell dir vor, dass dein iPhone in Zukunft nicht nur Fotos machen und telefonieren kann, sondern auch wirklich verstehen kann, was du siehst. Du könntest ein Diagramm aufnehmen und fragen, was die Daten bedeuten; du könntest ein Menü fotografieren und fragen, welches Gericht am besten ist; oder du könntest ein kompliziertes Anleitungsbuch fotografieren, und es würde dir Schritt für Schritt erklären, wie du etwas machst.

All dies ist möglich dank Modellen wie FastVLM, die effizient und leistungsfähig sind. Apples Forschung zeigt nicht nur ihre starke Position im Bereich der AI, sondern zeichnet auch eine schöne Vision für die intelligente Zukunft mobiler Geräte auf.

Daher solltest du beim nächsten Mal, wenn du dein iPhone in die Hand nimmst, wissen, dass es möglicherweise ein FastVLM-Modell läuft, das bereit ist, dir intelligent und effizient zu dienen!

Projektadresse: https://github.com/apple/ml-fastvlm

Papieradresse: https://www.arxiv.org/pdf/2412.13303