Kürzlich hat die University of California in Santa Cruz die Einführung von OpenVision bekannt gegeben, einer neuen Serie von Visual-Encodern, die als Alternative zu Modellen wie denen von OpenAI (CLIP) und Google (SigLIP) konzipiert ist. Die Einführung von OpenVision bietet Entwicklern und Unternehmen mehr Flexibilität und Auswahl, was die Bildverarbeitung und -interpretation effizienter macht.

QQ_1747104293206.png

Was ist ein Visual Encoder?

Ein Visual Encoder ist ein künstlicher Intelligenz-Modell, das visuelle Materialien (üblicherweise statische Bilder) in digitale Daten umwandelt, die von anderen nicht-visuellen Modellen (wie großen Sprachmodellen) verstanden werden können. Visual Encoders sind ein wesentliches Bindeglied zwischen der Bild- und Textverständnis, ermöglichen es großen Sprachmodellen, Themen, Farben, Positionen usw. in Bildern zu erkennen, um komplexere Schlussfolgerungen und Interaktionen vorzunehmen.

QQ_1747104314162.png

Hauptfunktionen von OpenVision

1. **Vielfalt an Modellen**

OpenVision bietet 26 verschiedene Modelle mit einer Parametergröße von 5,9 Millionen bis zu 632 Millionen. Diese Vielfalt ermöglicht es Entwicklern, je nach Verwendungskontext das passende Modell auszuwählen, sei es zum Identifizieren von Bildern auf einem Baustand oder zur Bereitstellung von Reparaturschritten für Haushaltsgeräte.

2. **Flexible Bereitstellungsarchitektur**

Die Architektur von OpenVision passt sich verschiedenen Einsatzszenarien an. Größere Modelle eignen sich für Serverlasten, bei denen hohe Präzision und detaillierte visuelle Erkenntnisse erforderlich sind, während leichtere Varianten im Edge-Bereich optimiert sind, ideal für Umgebungen mit geringem Speicher und geringem Rechenleistungspotenzial. Außerdem unterstützen die Modelle adaptive Patchgrößen (8×8 und 16×16), was einen flexiblen Ausgleich zwischen Detailauflösung und Rechenlast ermöglicht.

3. **Herausragende Performance in multimodalen Tests**

In einer Reihe von Referenztests hat OpenVision gute Ergebnisse bei verschiedenen multimodalen Aufgaben (Bild-Text) erzielt. Obwohl die Bewertung von OpenVision weiterhin herkömmliche Benchmarks wie ImageNet und MSCOCO einschließt, betonen die Forscher, dass diese Indikatoren allein nicht als Maßstab für das Modell verwendet werden sollten. Sie empfehlen, ein breiteres Spektrum von Benchmarks und offene Evaluationsprotokolle zu verwenden, um reale multimodale Anwendungen besser widerzuspiegeln.

4. **Effiziente Strategie der fortschrittlichen Ausbildung**

OpenVision nutzt eine fortschrittliche Trainingsstrategie durch Auflösung, bei der das Modell mit Bildern geringerer Auflösung beginnt und schrittweise auf höhere Auflösungen abgestimmt wird. Diese Methode verbessert die Trainingseffizienz oft um das Doppelte oder Dreifache im Vergleich zu CLIP und SigLIP, ohne die spätere Leistung zu beeinträchtigen.

5. **Optimierung für leichte Systeme und Edge-Rechnung**

OpenVision zielt auch darauf ab, effizient mit kleinen Sprachmodellen zu integrieren. In einem Experiment wurde ein Visual Encoder mit einem 1,5-Millionen-Parameter-Smol-LM-Modell kombiniert, um ein gesamt weniger als 2,5-Millionen-Parameter-multimodales Modell zu erstellen, das trotzdem gute Präzision in Aufgaben wie visuellen Frage-Antwort-Systemen und Dokumentenverständnis erreicht.

Wichtigkeit der Anwendungen für Unternehmen

Die Open-Source- und modulare Herangehensweise von OpenVision ist für technologische Entscheidungsträger in Unternehmen von strategischem Interesse. Nicht nur bietet sie eine leistungsstarke und Plug-and-Play-Fähigkeit für den Entwicklungs- und Deployment-Prozess von Sprachmodellen, sondern sie gewährleistet auch, dass private Unternehmensdaten nicht fließen. Darüber hinaus ermöglicht die transparente Architektur von OpenVision Sicherheitsteams, potenzielle Schwachstellen der Modelle zu überwachen und zu bewerten.

Die Bibliothek von Modellen von OpenVision ist nun unter PyTorch und JAX verfügbar und kann über Hugging Face heruntergeladen werden. Die Trainingsrezepte sind ebenfalls öffentlich verfügbar. Durch transparente, effiziente und erweiterbare Lösungen bietet OpenVision eine flexible Grundlage für Forscher und Entwickler, um multimodale Anwendungen weiterzuentwickeln.

Projekt: https://ucsc-vlaa.github.io/OpenVision/