Kürzlich hat ByteDance seinen neuesten Open-Source-Multimodal-Basismodell – BAGEL (Big Advanced Generalized Embodied Learner) – offiziell veröffentlicht, das mit 7 Milliarden gültigen Parametern ein neues Zeitalter der Multimodalität in AI-Modellen einläutet. BAGEL zeigt herausragende Leistungen bei wichtigen Aufgaben wie Bildverstehen, Generierung und Bearbeitung und übertrifft in mehreren Standardtests die derzeit dominierenden Open-Source-Vision-Sprach-Modelle (VLM), wie Qwen2.5-VL und InternVL-2.5.
Das Modell wurde auf großen multiplen Datensätzen trainiert, die sich abwechselnd in verschiedene Modi finden. Es besitzt nicht nur eine beeindruckende Fähigkeit zur Text-zu-Bild-Generierung, die sogar dem professionellen Generator Stable Diffusion3 (SD3) gleichkommt, sondern zeigt auch herausragende qualitative Leistungen bei komplexen Aufgaben wie Bildbearbeitung, freie Form-Operationen und Multi-View-Synthese, was seine Potenzialmöglichkeiten in Bereichen wie "Weltmodellierung" unterstreicht.
Auf technischer Ebene verwendet BAGEL eine hybride Transformer-Experten-Architektur (MoT) und verfügt über zwei unabhängige Codierer, um pixelgenaue und semantische Merkmale des Bildes zu erfassen. Sein Trainingsparadigma folgt der Strategie "nächste Gruppe von Markierungen vorhersagen", was effizientere multimodale Vorabtraining und Überwachungslernen ermöglicht und somit in Verständnis- und Generierungsfähigkeiten sprunghaft ansteigt.
Zur einfacheren Nutzung durch Entwickler hat ByteDance nicht nur das Vorabtrainierte-Modell und die Evaluations-Skripte offenbart, sondern auch detaillierte Anleitungsdokumentationen und eine Gradio-WebUI bereitgestellt, um schnelle Implementierung und Tests zu ermöglichen. Alle Ressourcen können über GitHub Pages abgerufen werden.
Die Forschungsteam ermutigt die Community aktiv am Modell-Optimierung teilzunehmen und fordert Rückmeldungen zu realen Szenarien über GitHub Issue oder Discord-Kanäle. ByteDance betont, dass kontinuierliche Offenheit und Zusammenarbeit entscheidend für den Fortschritt von BAGEL sein werden.
Als ein Multimodal-Modell, das Verständnis-, Generierungs- und Bearbeitungsfähigkeiten vereint, bietet BAGEL sicherlich Forschern und Entwicklern leistungsstarke Werkzeuge an und markiert einen neuen Schritt in Richtung eines allgemeineren und offeneren AI-Ansatzes.