Dans le domaine de l'intelligence artificielle (IA) multimodale, les ingénieurs d'Apple ont collaboré avec une équipe de recherche de l'Université Sorbonne à Paris pour mener une étude importante. Récemment, le média technologique marktechpost a publié un article de blog explorant l'application et les perspectives des modèles de fusion précoce et de fusion tardive dans l'IA multimodale. L'étude montre que les modèles de fusion précoce entraînés à partir de zéro présentent un avantage en termes d'efficacité de calcul et d'extensibilité.

L'objectif de l'IA multimodale est de traiter simultanément plusieurs types de données, telles que des images et du texte. Cependant, l'intégration de ces données provenant de sources différentes a toujours été un défi. Les techniques actuelles utilisent généralement une stratégie de fusion tardive (late-fusion), consistant à combiner des modèles unimodaux pré-entraînés (comme des modèles de vision et de langage). Bien que cette méthode soit simple à mettre en œuvre, elle est souvent limitée par les biais inhérents à la pré-formation unimodale, ce qui affecte la capacité du modèle à capturer les relations inter-modalités pour une véritable compréhension multimodale.

Métavers, science-fiction, cyberpunk, peinture (3) grand modèle

Source : L'image a été générée par IA, Midjourney est le fournisseur de services d'autorisation d'image.

Avec l'augmentation de l'échelle des systèmes, les paramètres, les besoins de pré-entraînement et les caractéristiques d'extensibilité des différents composants diffèrent considérablement, ce qui complique la répartition des ressources de calcul, en particulier pour les tâches nécessitant un raisonnement multimodale approfondi, impactant gravement les performances. Dans ce contexte, l'équipe de recherche d'Apple et de l'Université Sorbonne a remis en question les choix d'architecture traditionnels et a exploré en profondeur les caractéristiques d'extensibilité des modèles multimodaux natifs (NMM).

L'étude a comparé les modèles de fusion précoce (early-fusion) et de fusion tardive. Les résultats montrent que, bien que les performances soient comparables lors de l'entraînement à partir de zéro, les modèles de fusion précoce sont plus efficaces à faible budget de calcul et plus faciles à étendre. De plus, l'équipe a exploré l'architecture sparse Mixture of Experts (MoE), qui permet une allocation dynamique des paramètres, optimisant chaque modalité de manière spécifique. Par rapport aux modèles denses, les modèles clairsemés présentent un avantage clair pour les modèles de petite taille.

L'étude montre que les modèles clairsemés ont tendance à augmenter le nombre de jetons d'entraînement (training tokens) plutôt que le nombre de paramètres actifs (active parameters), ce qui contraste fortement avec la manière dont les modèles denses sont étendus. Grâce à des expériences systématiques, l'équipe de recherche a entraîné des modèles multimodaux allant de 300 millions à 4 milliards de paramètres actifs, validant ainsi le potentiel de la fusion précoce et des architectures clairsemées dans le traitement multimodale. Ces découvertes remettent en question les conceptions traditionnelles et ouvrent de nouvelles perspectives pour le développement de systèmes d'IA multimodale efficaces à l'avenir.