Nur 20 Milliarden Parameter! Byte stellt Seed1.5-VL-Multimodalmodell vor und erreicht 38 SOTA-Resultate

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · May 14, 2025

3

Bei der Vulkan Engine FORCE LINK AI Innovationsrundreise in Shanghai hat ByteDance die neueste visuelle-sprachliche Multimodalen-Modell – Seed1.5-VL – offiziell vorgestellt. Dieses Modell sticht aufgrund seiner herausragenden Fähigkeiten zur allgemeinen multimodalen Verständigung und Deduktion hervor und war das Hauptaugenmerk dieses Ereignisses, wobei es viele Branchenexperten und Entwickler anzog.

Ein bemerkenswertes Merkmal von Seed1.5-VL ist seine verbesserte Fähigkeit zur multimodalen Verständigung und Deduktion. Im Vergleich zu früheren Versionen hat Seed1.5-VL bei der Geschwindigkeit und Genauigkeit der visuellen Lokalisierung und Deduktion signifikante Fortschritte gemacht. Darüber hinaus bietet die hinzugefügte Videoverständigung und die Funktion eines multimodalen Intelligenten Assistenten eine ausgezeichnete Leistung bei der Bearbeitung komplexer Aufgaben.

Superleistung mit kostengünstiger Lösung

Obwohl Seed1.5-VL nur 20B Aktivierungsparameter hat, erreicht es Leistungen vergleichbar mit Gemini2.5Pro. In 60 öffentlichen Benchmark-Evaluierungen erzielte Seed1.5-VL SOTA-Leistungen (State-of-the-Art) in 38 Aufgaben, insbesondere bei der Videoverständigung, visueller Deduktion und der Fähigkeit des multimodalen Intelligenten Assistenten, was die Spitzenposition im Industrieherausforderungsstand darstellt.

In Bezug auf den Inferenzkosten zeigt Seed1.5-VL ebenfalls außerordentliche Leistungen, wobei die Kosten für den Eingabedatenstrom pro Tausend Tokens nur 0,003 Yuan betragen und die Kosten für den Ausgabedatenstrom pro Tausend Tokens nur 0,009 Yuan, was extrem wirtschaftlich ist.

Praktische API-Zugangsmöglichkeit

Bereits jetzt steht Seed1.5-VL vollständig über die Vulkan Engine als API zur Verfügung. Entwickler können nach der Anmeldung einfach „Doubao-1.5-thinking-vision-pro“ auswählen, um dessen Fähigkeiten schnell zu nutzen und eigene AI-Visuelle Hilfsprogramme, Inspektionssysteme, interaktive Agenten oder intelligente Kamera der nächsten Generation zu entwickeln.

Um die tatsächliche Leistung von Seed1.5-VL zu validieren, führten Reporter verschiedene Tests durch. Durch das Hochladen eines Regalbilds konnte Seed1.5-VL schnell spezifische Produkte erkennen und deren Preise berechnen. Bei komplexen grafischen logischen Aufgaben für Beamten zeigte Seed1.5-VL auch seine starke Deduktionsfähigkeit, indem es in kurzer Zeit die Muster erfasste und ableitete, um schwierige logische Aufgaben zu lösen.

Seed1.5-VL, als die neueste Generation multimodaler Modelle der Seed-Serie, zeigt nach Vortraining auf über 3T Token in multimodalen Daten herausragende Leistungen bei Bildfragen und Antworten, Diagrammverständnis, visueller Deduktion und mehreren anderen Aufgaben. Das Modell besteht aus drei Kernkomponenten: dem visuellen Codierungsmodul SeedViT, einem Mehrschichtenperzeption-Adapter für visuelle Merkmalsprojektion und einem großen Sprachmodell Seed1.5-LLM basierend auf dem MoE-Architektur.

GitHub: https://github.com/ByteDance-Seed/Seed1.5-VL
https://seed.bytedance.com/zh/tech/seed1_5_vl

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Nur 20 Milliarden Parameter! Byte stellt Seed1.5-VL-Multimodalmodell vor und erreicht 38 SOTA-Resultate

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht