ByteDance veröffentlicht neues multimodales Großmodell, um Google Gemini 2.5 Pro herauszufordern

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 3 Minuten Lesezeit · May 14, 2025

6

In der heutigen zunehmend konkurrenzreichen AI-Branche veröffentlichte das Seed-Team von ByteDance am 13. Mai offiziell sein neuestes multimodales Giganter-Modell Seed1.5-VL, um den Fortschritt in der intelligenten Agententechnologie zu fördern. Nach einer Vorverarbeitung mit mehr als 3 Billionen Tokens multimodaler Daten verfügt das Modell nicht nur über ausgezeichnete allgemeine Fähigkeiten zur multimodalen Verständigung und Inferenz, sondern reduziert zudem die Kosten für das Inferenzprozess.

Im Vergleich zu Googles kürzlich vorgestelltem Gemini2.5Pro weist Seed1.5-VL ähnliche Leistungen auf. Google's Gemini2.5Pro unterstützt die einheitliche Verständigung von Bildern, Videos, Audiodaten und Code und führt bei mehreren Benchmarktests die GPT-4.0 übertreffen. Das Seed-Team von ByteDance erklärte, dass trotz der Aktivparameter von nur 20 Milliarden bei 60 öffentlichen Evaluierungsbenchmarks Seed1.5-VL auf 38 Benchmarks den neuesten optimalen Wert (SOTA) erreichte, darunter bei 14 von 19 Videobenchmarks und bei 3 von 7 GUI-Agentenaufgaben.

In Bezug auf spezifische Fähigkeiten zeigt Seed1.5-VL herausragende visuelle Inferenz-, Bildfragestellungs- und Videoverständnisfähigkeiten. Bei Aufgaben im Zusammenhang mit intelligenten Agenten erzielte das Modell SOTA-Leistungen in 7 GUI-Aufgaben. Darüber hinaus wurde Seed1.5-VL im Design vereinfacht, um den Rechenaufwand zu reduzieren, was es idealer für interaktive Anwendungen macht. So kann es komplexe Aufgaben wie Informationsgewinnung und -verarbeitung auf PCs und Smartphones erfolgreich absolvieren.

Doch Seed1.5-VL trifft immer noch auf einige Herausforderungen. Bei der feinen visuellen Wahrnehmung versucht das Modell beispielsweise mit dem Zählen von Zielen, der Identifikation von Bildunterschieden und der Erklärung komplexer räumlicher Beziehungen Schwierigkeiten, insbesondere bei unregelmäßigen Anordnungen, farblich ähnlichen Objekten oder teilweise verdeckten Gegenständen. Außerdem zeigt das Modell manchmal unhaltbare Annahmen oder unvollständige Antworten bei hochwertigen Inferenztasks, was andeutet, dass es hier weiter optimiert werden muss.

Dennoch markiert die Veröffentlichung von Seed1.5-VL einen weiteren Schritt voran bei ByteDances Fortschritten in der multimodalen Technologie. Das Modell ist mittlerweile über das API von Volcano Engine verfügbar, sodass Nutzer diese neue Technologie direkt ausprobieren können.

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

ByteDance veröffentlicht neues multimodales Großmodell, um Google Gemini 2.5 Pro herauszufordern

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht