Bei der Vulkan Engine FORCE LINK AI Innovationsrundreise in Shanghai hat ByteDance die neueste visuelle-sprachliche Multimodalen-Modell – Seed1.5-VL – offiziell vorgestellt. Dieses Modell sticht aufgrund seiner herausragenden Fähigkeiten zur allgemeinen multimodalen Verständigung und Deduktion hervor und war das Hauptaugenmerk dieses Ereignisses, wobei es viele Branchenexperten und Entwickler anzog.

Ein bemerkenswertes Merkmal von Seed1.5-VL ist seine verbesserte Fähigkeit zur multimodalen Verständigung und Deduktion. Im Vergleich zu früheren Versionen hat Seed1.5-VL bei der Geschwindigkeit und Genauigkeit der visuellen Lokalisierung und Deduktion signifikante Fortschritte gemacht. Darüber hinaus bietet die hinzugefügte Videoverständigung und die Funktion eines multimodalen Intelligenten Assistenten eine ausgezeichnete Leistung bei der Bearbeitung komplexer Aufgaben.

image.png

Superleistung mit kostengünstiger Lösung

Obwohl Seed1.5-VL nur 20B Aktivierungsparameter hat, erreicht es Leistungen vergleichbar mit Gemini2.5Pro. In 60 öffentlichen Benchmark-Evaluierungen erzielte Seed1.5-VL SOTA-Leistungen (State-of-the-Art) in 38 Aufgaben, insbesondere bei der Videoverständigung, visueller Deduktion und der Fähigkeit des multimodalen Intelligenten Assistenten, was die Spitzenposition im Industrieherausforderungsstand darstellt.

In Bezug auf den Inferenzkosten zeigt Seed1.5-VL ebenfalls außerordentliche Leistungen, wobei die Kosten für den Eingabedatenstrom pro Tausend Tokens nur 0,003 Yuan betragen und die Kosten für den Ausgabedatenstrom pro Tausend Tokens nur 0,009 Yuan, was extrem wirtschaftlich ist.

image.png

Praktische API-Zugangsmöglichkeit

Bereits jetzt steht Seed1.5-VL vollständig über die Vulkan Engine als API zur Verfügung. Entwickler können nach der Anmeldung einfach „Doubao-1.5-thinking-vision-pro“ auswählen, um dessen Fähigkeiten schnell zu nutzen und eigene AI-Visuelle Hilfsprogramme, Inspektionssysteme, interaktive Agenten oder intelligente Kamera der nächsten Generation zu entwickeln.

Um die tatsächliche Leistung von Seed1.5-VL zu validieren, führten Reporter verschiedene Tests durch. Durch das Hochladen eines Regalbilds konnte Seed1.5-VL schnell spezifische Produkte erkennen und deren Preise berechnen. Bei komplexen grafischen logischen Aufgaben für Beamten zeigte Seed1.5-VL auch seine starke Deduktionsfähigkeit, indem es in kurzer Zeit die Muster erfasste und ableitete, um schwierige logische Aufgaben zu lösen.

Seed1.5-VL, als die neueste Generation multimodaler Modelle der Seed-Serie, zeigt nach Vortraining auf über 3T Token in multimodalen Daten herausragende Leistungen bei Bildfragen und Antworten, Diagrammverständnis, visueller Deduktion und mehreren anderen Aufgaben. Das Modell besteht aus drei Kernkomponenten: dem visuellen Codierungsmodul SeedViT, einem Mehrschichtenperzeption-Adapter für visuelle Merkmalsprojektion und einem großen Sprachmodell Seed1.5-LLM basierend auf dem MoE-Architektur.

  • GitHub: https://github.com/ByteDance-Seed/Seed1.5-VL

  • https://seed.bytedance.com/zh/tech/seed1_5_vl