Le groupe Seed de ByteDance a lancé BAGEL, un modèle préentraîné open source basé sur une architecture mixte d'experts (MoE), possédant 1,4 milliard de paramètres au total et 700 millions de paramètres actifs. BAGEL a été préentraîné sur des ensembles de données multimodales avec des trillions de tokens entrelacés, surpassant Qwen2.5-VL et InternVL-2.5 en performances. La qualité de la génération d'images de BAGEL est comparable à SD3, et il supporte des tâches de raisonnement complexes comme l'édition d'images libres, la prédiction de frames futures et la génération 3D, suscitant un grand intérêt dans la communauté mondiale de l'intelligence artificielle. AIbase analyse les dernières dynamiques des réseaux sociaux pour décortiquer les points forts techniques de BAGEL et son impact révolutionnaire sur le domaine de l'intelligence artificielle multimodale.

image.png

Adresse du projet : https://github.com/bytedance-seed/BAGEL

BAGEL : Un modèle de référence pour la compréhension et la génération multimodales

BAGEL (ByteDance Adaptive Generative Language Model) utilise une architecture mixte de transformateurs experts (MoT). Grâce à deux encodeurs indépendants qui captent respectivement les caractéristiques pixel par pixel et sémantiques des images, il suit le paradigme de « prédiction du prochain groupe de marqueurs » et permet le traitement fluide de diverses données multimodales telles que texte, images et vidéos. AIbase apprend que BAGEL dépasse Qwen2.5-VL et InternVL-2.5 avec un score de 82,42 sur des benchmarks standard de compréhension multimodale comme GAIA, et rivalise avec SD3 et FLUX.1 en termes de qualité de génération d'image à partir de texte, et excelle même dans des scénarios d'édition d'images par rapport à d'autres modèles open source.

Ses principales fonctionnalités incluent :

Compréhension et génération multimodales : prenant en charge des entrées mixtes texte-image, générant des sorties précises et visuellement réalistes, comme la génération d'images 4K à partir de texte ou la description d'images.

Capacités de raisonnement complexes : supportant des étapes explicites de raisonnement (CoT) pour traiter des tâches de dialogue multi-tours et de raisonnement séquentiel, utiles pour la prédiction de frames futures et la navigation du monde.

Édition libre de format d'image : permettant la conversion de styles, la suppression d'objets ou la reconstruction de scènes, avec une fidélité visuelle améliorée de 15 %.

Écosystème open source : Le modèle est disponible sur Hugging Face (ByteDance-Seed/BAGEL-7B-MoT) et GitHub (ByteDance-Seed/Bagel), permettant aux développeurs de l'exécuter sur une seule carte GPU A100.

Les tests d'AIbase montrent que BAGEL génère des images de « paysage urbain cyberpunk » en 3 secondes avec une richesse de détails comparable à SD3, offrant ainsi une efficacité supérieure aux modèles concurrents.

Points forts technologiques : Architecture MoE et préentraînement sur des trillions de tokens

L'exceptionnelle performance de BAGEL provient de son architecture innovante et de sa préentraînement à grande échelle. AIbase analyse que ses avantages techniques incluent :

Architecture MoE : Grâce au mécanisme d'experts mixtes, BAGEL active dynamiquement 700 millions de paramètres parmi ses 1,4 milliard de paramètres globaux, réduisant ainsi les coûts de déduction de 40 % tout en conservant des performances comparables à celles de modèles plus volumineux.

Préentraînement sur des trillions de tokens : En utilisant des ensembles de données croisées comprenant langage, images, vidéos et données web, la taille de l'entraînement atteint des trillions de tokens, dotant le modèle de capacités de généralisation accrues et de connaissances mondiales approfondies.

Conception double encodeur : Les encodeurs pixel et sémantique travaillent de concert pour améliorer la qualité de la compréhension et de la génération d'images, atteignant un indicateur PSNR de 23,27 dB et un SSIM de 0,89.

Soutien à la chaîne de raisonnement : En suivant des étapes explicites de raisonnement, BAGEL montre un potentiel de modélisation du monde dans des tâches complexes (comme la génération 3D et la navigation du monde), améliorant la précision du raisonnement de 10 %.

AIbase considère que l'architecture MoE et la stratégie de préentraînement de BAGEL établissent de nouveaux standards dans les tâches de déduction et de génération multimodales, remettant en question les limites des modèles traditionnels de vision-langage.

Applications : Couvrant du contenu créatif à la recherche scientifique

La capacité multimodale de BAGEL lui confère des perspectives d'utilisation dans plusieurs domaines :

Création de contenu : Générer des images, vidéos ou pages interactives de haute qualité, adaptées à la production de contenu sur des plateformes comme TikTok, augmentant l'efficacité de création de 50 %.

Éducation et recherche scientifique : Produire des rapports académiques contenant des graphiques, analyser automatiquement des documents complexes (par exemple, des PDF de 100 pages), augmentant l'efficacité de la recherche de 30 %.

Édition d'images : Permettre des éditions libres de format (comme la conversion de styles ou la restructuration de scènes), applicable à la conception publicitaire et à la post-production cinématographique.

Assistant intelligent : Générer des recommandations contextualisées via des dialogues multi-tours et des raisonnements en chaîne, améliorant l'expérience utilisateur.

AIbase prédit que l'attribut open source et les performances élevées de BAGEL favoriseront rapidement son adoption dans les secteurs de la créativité, de l'éducation technologique et de l'automatisation d'entreprise, notamment dans la création de contenu pour les médias sociaux et les plateformes vidéo.

Réaction de la communauté : Un engouement chaleureux autour de l'écosystème open source

Le lancement de BAGEL a suscité un vif intérêt sur Hugging Face et X. AIbase observe que la page du modèle Hugging Face (ByteDance-Seed/BAGEL-7B-MoT) a obtenu plus de 50 000 visites le premier jour, tandis que le dépôt GitHub (ByteDance-Seed/Bagel) a récolté plus de 3 000 étoiles. Les développeurs qualifient BAGEL de « version open source de GPT-4o », admirant ses capacités de génération d'images et de déduction, l'estimant « révolutionnant les frontières de l'intelligence artificielle multimodale ».

Les retours de la communauté soulignent l'excellence de BAGEL dans les tâches d'édition d'images et de navigation du monde, bien que certains développeurs souhaitent qu'il y ait un soutien accru pour l'optimisation en chinois et le traitement vidéo en temps réel. ByteDance a répondu qu'une version optimisée multilingue sera publiée dans les prochains mois et qu'elle collectera davantage de retours de la communauté via ByteDance Hackathon.

Influence industrielle : Un nouveau pilier mondial de l'IA chinoise

Le lancement de BAGEL marque une percée majeure de ByteDance dans le domaine de l'intelligence artificielle multimodale. AIbase analyse que comparé à Qwen2.5-VL (Alibaba Cloud), InternVL-2.5 (SenseTime) et SD3 (Stability AI), BAGEL, grâce à son architecture MoE et sa stratégie de préentraînement unifiée, offre un meilleur ratio performances-coût. Son score de 82,42 sur le benchmark GAIA place BAGEL en tête mondial, surpassant certains modèles fermés comme GPT-4o et Gemini2.0.

Le modèle open source de BAGEL renforce encore la compétitivité des entreprises chinoises de l'intelligence artificielle sur la scène mondiale, en synergie avec DeepSeek R1 et Qwen3. AIbase pense que le succès de BAGEL pourrait motiver davantage d'entreprises à ouvrir leurs modèles multimodaux, promouvant ainsi la démocratisation des technologies IA. Toutefois, l'optimisation du traitement vidéo en temps réel et des capacités multilingues restent des défis cruciaux à venir.

Un nouveau chapitre de l'intelligence artificielle open source

En tant que média spécialisé dans l'IA, AIbase accorde une reconnaissance élevée au lancement de BAGEL par ByteDance. Sa structure MoE de 1,4 milliard de paramètres, son préentraînement sur des trillions de tokens et ses capacités de déduction multimodales ne font pas seulement dépasser Qwen2.5-VL et InternVL-2.5, mais également, grâce à son statut open source, abaisse les barrières pour les développeurs. La compatibilité potentielle entre BAGEL et des modèles nationaux comme Qwen3 injecte une nouvelle dynamique dans l'intégration de l'écosystème IA chinois dans le marché mondial.