Récemment, ByteDance a officiellement publié son tout dernier modèle pré-entraîné open source multimodal — BAGEL (Big Advanced Generalized Embodied Learner), qui ouvre une nouvelle phase pour les modèles AI multimodaux avec une taille de 7 milliards de paramètres efficaces. BAGEL se distingue particulièrement dans des tâches clés comme la compréhension, la génération et l'édition d'images, surpassant largement les modèles de langue visuelle open source dominants actuels tels que Qwen2.5-VL et InternVL-2.5 dans plusieurs évaluations standard.
Le modèle BAGEL est formé sur des données multimodales massives interconnectées, non seulement possédant une capacité exceptionnelle de génération d'image à partir de texte, mais ses performances peuvent même rivaliser avec celles du générateur professionnel Stable Diffusion3 (SD3). Dans des tâches complexes comme l'édition d'images, les opérations en libre-forme et la synthèse multi-vues, BAGEL dépasse nettement les modèles existants en termes de performance qualitative, démontrant ainsi son potentiel dans des directions avancées telles que la "modélisation du monde".
Du point de vue de l'architecture technologique, BAGEL utilise une structure mixte Transformer-expert (MoT) et emploie deux encodeurs indépendants pour capturer respectivement les caractéristiques au niveau des pixels et sémantiques des images. Sa méthode d'entraînement suit la stratégie de "prédiction du prochain ensemble de marqueurs", ce qui permet un apprentissage préalable et supervisé multimodal plus efficace, renforçant ainsi ses capacités de compréhension et de génération de manière progressive.
Pour faciliter l'utilisation des développeurs, ByteDance a non seulement rendu open source le modèle pré-entraîné et les scripts d'évaluation, mais a également fourni des documents d'utilisation détaillés et une interface utilisateur Gradio WebUI pour une mise en œuvre rapide et des tests. Les utilisateurs peuvent accéder à toutes les ressources via GitHub Pages.
L'équipe de développement encourage activement la communauté à participer à l'amélioration du modèle et invite à soumettre des problèmes liés à sa performance dans des scénarios réels via GitHub Issue ou Discord. ByteDance affirme que l'ouverture continue et la collaboration sont essentielles pour le progrès de BAGEL.
En tant que modèle multimodal intégrant des capacités de compréhension, de génération et d'édition, le lancement de BAGEL offre sans aucun doute aux chercheurs en IA et aux développeurs des outils encore plus puissants, marquant également l'entrée dans une nouvelle phase plus pratique et ouverte de l'intelligence artificielle généralisée.