ByteDance hat ein Open-Source-Multimodal-Grundmodell namens BAGEL veröffentlicht, das 7 Milliarden aktive Parameter und insgesamt 14 Milliarden Parameter enthält.

image.png

BAGEL zeigt sich in Standard-Benchmarks für multimodale Verständnis-Aufgaben überlegen und übertrifft einige der besten offenen visuellen Sprachmodelle wie Qwen2.5-VL und InternVL-2.5. Auch in der Qualität der Text-zu-Bild-Generierung steht es mit starken professionellen Generatoren wie SD3 auf Augenhöhe. Außerdem übertrifft es viele führende offene Modelle im klassischen Bildbearbeitungsszenario.

image.png

BAGEL verwendet eine Architektur namens "Hybrid Transformer Experts (MoT)", um das Lernen vielfältiger multimodaler Informationen zu maximieren. Es nutzt zwei unabhängige Encodierer, um pixelniveau- und semantikniveau-basierte Merkmale von Bildern zu erfassen. Der Gesamtframework folgt dem Paradigma der "vorherzusagenden nächsten Markovorhersage", wobei das Ziel besteht darin, den nächsten Sprach- oder Visuellmarken vorherzusagen, um eine Kompression zu erreichen.

Während des Vortrainings nutzte BAGEL trillionsweise verschränkte multimodale Marken aus Sprache, Bildern, Videos und Webdaten. Nach fortgesetzter Ausbildung und supervisierter Fine-Tuning übertraf BAGEL offene Modelle in Standard-Verständnis- und Generierungsbenchmarks und zeigte fortschrittliche Fähigkeiten in multimodalem Kontext, wie freie Form-Bildbearbeitung, Vorhersage zukünftiger Frames, 3D-Manipulation und Weltnavigation.

Mit dem kontinuierlichen Erweitern des Vortrainings stellten die Forscher fest, dass BAGEL in Verständnis-, Generierungs- und Bearbeitungsaufgaben weiter verbessert wurde. Verschiedene Fähigkeiten manifestierten sich in verschiedenen Trainingsphasen: Frühzeitig zeigte sich Multimodalverständnis und Generierungsfähigkeit, während komplexere intelligente Bearbeitungsfähigkeiten später auftauchten.

Forschungsarbeiten haben gezeigt, dass die Kombination von Variationsautoencodern (VAE) und visuellen Transformers (ViT) die intelligente Bearbeitungsfähigkeit signifikant steigerte und die Bedeutung visueller-semantischer Kontexte in komplexem multimodalem Inferenz betonte.

Projekt: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

Hier sind die Schwerpunkte:

🌟 BAGEL ist ein Open-Source-Multimodal-Grundmodell mit 7 Milliarden aktiven Parametern, das mehrere Standardbenchmarks übertrifft.  

🖼️ Das Modell zeigt sich bei Bildgenerierung und -bearbeitungsaufgaben hervorragend und kann freie Form-Bildbearbeitungen und Weltnavigation durchführen.  

📈 Durch multimodales Vortraining zeigt BAGEL eine kontinuierliche Leistungssteigerung und passt sich komplexen multimodalen Inferenzaufgaben an.