ByteDance a publié un modèle de base multimodal open source nommé BAGEL, qui possède 7 milliards de paramètres actifs et un total de 14 milliards de paramètres.
BAGEL se distingue dans les benchmarks standard de compréhension multimodale, surpassant certains des meilleurs modèles de langage visuel open source actuels comme Qwen2.5-VL et InternVL-2.5. De plus, en termes de qualité de génération d'images à partir de texte, BAGEL se compare favorablement avec des générateurs professionnels puissants comme SD3. De manière encore plus impressionnante, il excelle également dans les scénarios classiques d'édition d'images par rapport à de nombreux modèles open source de pointe.
BAGEL utilise une architecture appelée « Transformateur Mixte Expert (MoT) », conçue pour maximiser la capacité du modèle à apprendre des informations multimodales diversifiées. Il utilise deux encodeurs indépendants pour capturer respectivement les caractéristiques pixelisées et sémantiques des images. Le cadre général du modèle suit la méthode de « prédiction du prochain groupe de marqueurs », avec pour objectif pendant l'entraînement de prédire le prochain marqueur linguistique ou visuel, ce qui permet de compresser efficacement.
Lors de son pré-entraînement, BAGEL a utilisé des billions de marqueurs multimodaux entrelacés provenant de données linguistiques, d'images, de vidéos et de données web. Après un entraînement continu et un ajustement fin supervisé, BAGEL dépasse les modèles open source dans les benchmarks standard de compréhension et de génération, démontrant des capacités avancées en inférence multimodale contextuelle, comme l'édition d'images à forme libre, la prédiction de frames futurs, des opérations en trois dimensions et la navigation dans le monde réel.
Avec l'agrandissement progressif du pré-entraînement de BAGEL, les chercheurs ont observé que ses performances dans les tâches de compréhension, de génération et d'édition continuaient d'augmenter. Les différentes capacités apparaissent à différents stades de l'entraînement : la compréhension et la génération multimodales apparaissent tôt, tandis que les compétences plus complexes d'édition intelligente émergent plus tard.
Les recherches montrent que la combinaison de l'autoencodeur variationnel (VAE) et du visionneur transformateur (ViT) améliore significativement les capacités d'édition intelligente, soulignant l'importance du contexte visuel-sémantique dans les raisonnements multimodaux complexes.
Projet : https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
Points clés :
🌟 BAGEL est un modèle de base multimodal open source doté de 7 milliards de paramètres actifs, surpassant plusieurs benchmarks standards.
🖼️ Ce modèle se distingue dans les tâches de génération et d'édition d'images, capable d'édition à forme libre et de navigation dans le monde réel.
📈 Grâce au pré-entraînement multimodal, BAGEL montre une amélioration continue des performances, adaptant des tâches d'inférence multimodale complexes.