Récemment, l'Université de Princeton, ByteDance, Tsinghua University et Peking University ont collaboré pour créer quelque chose d'énorme : le modèle multimodal MMaDA ! Ce n'est pas un IA ordinaire ; il prétend donner à l'IA la capacité de "réflexion profonde" et peut passer sans effort des textes aux images et même aux tâches complexes de raisonnement, surpassant des modèles bien connus comme GPT-4, Gemini ou encore SDXL !

image.png

Vous pourriez penser que les modèles multimodaux actuels sont déjà impressionnants, capables de décrire des images ou générer des images à partir de texte. Mais MMaDA nous montre qu'il y a encore beaucoup plus à accomplir ! Les modèles traditionnels traitent souvent les différentes modalités avec des composants distincts ou des mécanismes mixtes complexes, comme une "boîte à outils multifonction", mais chaque outil reste indépendant, ce qui peut être un peu encombrant.

L'équipe derrière MMaDA vise à briser ces barrières pour permettre à l'IA d'être réellement intégrée !

Les trois "technologies secrètes" de MMaDA : faire en sorte que l'IA comprenne non seulement mais aussi "réfléchisse" !

Le secret du succès de MMaDA réside dans ses trois innovations majeures :

Architecture de diffusion unifiée : un tout-en-un pour toutes les modalités !

Imaginez avoir un "colle-tout" super-intelligent capable de coller ensemble des morceaux de formes et de matériaux variés de manière parfaite. MMaDA utilise justement cette "colle magique" — une architecture de diffusion unifiée. Cette architecture possède une formule probabiliste partagée et un design indépendant des modalités, ce qui signifie qu'elle traite du texte, des images et d'autres types de données sans avoir besoin de composants spécifiques pour chaque modalité ! Ainsi, l'IA peut basculer et traiter entre différents types de données de manière fluide, avec une efficacité et une cohérence accrues.

image.png

Mise au point des chaînes de raisonnement longues mixtes (Mixed Long CoT) : enseigner à l'IA à "réfléchir en profondeur" !

Nous savons que les grands modèles peuvent "réfléchir", souvent grâce à des chaînes de raisonnement (Chain-of-Thought, CoT). MMaDA va encore plus loin, en développant une stratégie de mise au point des chaînes de raisonnement longues mixtes. Elle conçoit un format unifié de CoT transmodale, obligeant l'IA à aligner son processus de raisonnement entre les domaines textuels et visuels. L'objectif est de donner à l'IA une formation de "lancement froid" avant son entrainement final en renforcement, afin de renforcer dès le début sa capacité à traiter des tâches complexes ! C'est comme si on donnait à l'IA un manuel de "techniques secrètes", lui permettant de maîtriser la "pensée profonde" avant même de s'entraîner sérieusement !

Algorithme de renforcement unifié UniGRPO : raisonner et générer en même temps !

Pouvoir raisonner ne suffit pas ; l'IA a également besoin de "l'apprentissage par la pratique" ! MMaDA propose un algorithme de renforcement spécifique conçu pour les modèles de diffusion appelé UniGRPO. Grâce à des modélisations de récompense diversifiées, il unifie intelligemment les tâches de raisonnement et de génération après entraînement, assurant une amélioration continue des performances du modèle. Avant, raisonner et générer pouvaient nécessiter des méthodes d'entraînement différentes, mais UniGRPO agit comme un "entraîneur polyvalent", capable de guider l'IA pour exceller dans les "concours d'intelligence" (raisonnement) et dans les "ateliers créatifs" (génération) !

image.png

Les résultats impressionnants de MMaDA : une domination généralisée, une intelligence transmodale !

Avec ces trois "technologies secrètes", le modèle MMaDA-8B a montré une capacité exceptionnelle de généralisation dans divers tests, établissant une domination transmodale :

Inférence textuelle : il dépasse LLAMA-3-7B et Qwen2-7B ! Cela signifie qu'il excelle en résolvant des problèmes mathématiques et en raisonnant logiquement sur des tâches complexes textuelles.

Compréhension multimodale : il domine Show-o et SEED-X ! Pour comprendre des images et répondre aux questions liées à ces images, MMaDA offre des résultats plus précis et complets.

Génération d'image à partir de texte : il dépasse SDXL et Janus ! Ce n'est pas un petit exploit, car SDXL est reconnu comme un leader dans la génération d'images, mais MMaDA génère des images plus précises et conformes aux connaissances du monde, grâce à sa puissance de raisonnement textuel avancée !

AIbase souligne que ces réussites soulignent l'efficacité de MMaDA à combler le fossé entre l'entraînement préalable et postérieur dans les architectures de diffusion, offrant ainsi un cadre complet pour les futures recherches et développements.

image.png

Les secrets de MMaDA : comment réaliser le "72 transformations" ?

Comment MMaDA arrive-t-il à cette capacité de "72 transformations" ?

Tokenisation unifiée : que ce soit pour du texte ou des images, MMaDA traite tout avec une stratégie de tokenisation discrète unifiée. Ainsi, toutes les données deviennent des "briques Lego" uniformes, et le modèle peut opérer sous un objectif commun de prédiction des tokens masqués. Par exemple, une image de 512x512 pixels sera convertie en 1024 tokens discrets ! C’est comme donner à toutes les modalités un uniforme unique !

image.png

Phase de "formation" en trois étapes : le processus d'entraînement de MMaDA ressemble à un "jeu vidéo" où vous montez de niveaux, en trois étapes :

Pré-entraînement de base (Étape 1) : utilisant des masses massives de données textuelles et multimodales, le modèle construit une base solide.

Micro-ajustement des chaînes de raisonnement longues mixtes (Étape 2) : en utilisant des données "chaînées de raisonnement" bien conçues, le modèle apprend à raisonner et à réfléchir. C’est ici que le modèle passe de "savoir" à "comprendre".

Apprentissage par renforcement UniGRPO (Étape 3) : enfin, l'utilisation de l'apprentissage par renforcement permet au modèle de continuer à optimiser ses performances en termes de raisonnement et de génération, cherchant l'excellence.

Stratégies de prélèvement flexibles : pendant le raisonnement, MMaDA est également flexible.

La génération de texte utilise une stratégie semi-autorégressive de débruitage, capable de produire des descriptions plus complexes et détaillées.

La génération d'image utilise un prélèvement parallèle non autorégressif, plus efficace. Ce mélange flexible garantit les meilleures performances dans différentes tâches.

Non seulement la génération : MMaDA peut aussi "imaginer" et "remplir les blancs" !

MMaDA a une compétence cachée : elle supporte naturellement la restauration d'images (inpainting) et l'extrapolation, sans ajustement supplémentaire ! Cela est dû aux propriétés des modèles de diffusion, où ces tâches peuvent être considérées comme des problèmes de "prédiction de tokens masqués", ce qui fait partie de l'objectif d'entraînement de MMaDA !

Cela signifie :

Elle peut prédire les parties manquantes dans une séquence de texte.

Elle peut compléter des réponses pour des questions visuelles en présence d'une image partielle.

Elle peut même restaurer une image à partir de prompts visuels incomplets !

C'est comme transformer l'IA en une assistante universelle capable d'"imaginer" des scènes et de "remplir les blancs", grandement augmentant ses applications et sa capacité de généralisation !

Conclusion : les modèles de diffusion, un nouveau paradigme pour l'IA ?

La naissance de MMaDA est sans aucun doute un jalon dans le domaine de l'intelligence artificielle multimodale. Il explore systématiquement pour la première fois l'espace de conception des modèles fondamentaux généraux basés sur les modèles de diffusion et propose des stratégies de post-entraînement innovantes. Les résultats expérimentaux montrent que MMaDA n'excelle pas seulement face aux modèles spécialisés, mais dépasse certains d'entre eux dans certaines tâches, démontrant ainsi tout le potentiel des modèles de diffusion comme prochain paradigme de l'intelligence artificielle multimodale !

Même si la taille actuelle de MMaDA (8 milliards de paramètres) peut encore être améliorée, son apparition dessine un futur plus vaste et plus unifié pour l'IA. Imaginez une IA qui ne serait plus une collection de spécialistes isolés, mais un "génie polyvalent" capable de réfléchir en profondeur, de comprendre plusieurs modalités et de générer une créativité infinie !

Adresse du projet : https://github.com/Gen-Verse/MMaDA