In der heutigen zunehmend konkurrenzreichen AI-Branche veröffentlichte das Seed-Team von ByteDance am 13. Mai offiziell sein neuestes multimodales Giganter-Modell Seed1.5-VL, um den Fortschritt in der intelligenten Agententechnologie zu fördern. Nach einer Vorverarbeitung mit mehr als 3 Billionen Tokens multimodaler Daten verfügt das Modell nicht nur über ausgezeichnete allgemeine Fähigkeiten zur multimodalen Verständigung und Inferenz, sondern reduziert zudem die Kosten für das Inferenzprozess.

Im Vergleich zu Googles kürzlich vorgestelltem Gemini2.5Pro weist Seed1.5-VL ähnliche Leistungen auf. Google's Gemini2.5Pro unterstützt die einheitliche Verständigung von Bildern, Videos, Audiodaten und Code und führt bei mehreren Benchmarktests die GPT-4.0 übertreffen. Das Seed-Team von ByteDance erklärte, dass trotz der Aktivparameter von nur 20 Milliarden bei 60 öffentlichen Evaluierungsbenchmarks Seed1.5-VL auf 38 Benchmarks den neuesten optimalen Wert (SOTA) erreichte, darunter bei 14 von 19 Videobenchmarks und bei 3 von 7 GUI-Agentenaufgaben.

image.png

In Bezug auf spezifische Fähigkeiten zeigt Seed1.5-VL herausragende visuelle Inferenz-, Bildfragestellungs- und Videoverständnisfähigkeiten. Bei Aufgaben im Zusammenhang mit intelligenten Agenten erzielte das Modell SOTA-Leistungen in 7 GUI-Aufgaben. Darüber hinaus wurde Seed1.5-VL im Design vereinfacht, um den Rechenaufwand zu reduzieren, was es idealer für interaktive Anwendungen macht. So kann es komplexe Aufgaben wie Informationsgewinnung und -verarbeitung auf PCs und Smartphones erfolgreich absolvieren.

image.png

Doch Seed1.5-VL trifft immer noch auf einige Herausforderungen. Bei der feinen visuellen Wahrnehmung versucht das Modell beispielsweise mit dem Zählen von Zielen, der Identifikation von Bildunterschieden und der Erklärung komplexer räumlicher Beziehungen Schwierigkeiten, insbesondere bei unregelmäßigen Anordnungen, farblich ähnlichen Objekten oder teilweise verdeckten Gegenständen. Außerdem zeigt das Modell manchmal unhaltbare Annahmen oder unvollständige Antworten bei hochwertigen Inferenztasks, was andeutet, dass es hier weiter optimiert werden muss.

Dennoch markiert die Veröffentlichung von Seed1.5-VL einen weiteren Schritt voran bei ByteDances Fortschritten in der multimodalen Technologie. Das Modell ist mittlerweile über das API von Volcano Engine verfügbar, sodass Nutzer diese neue Technologie direkt ausprobieren können.