Avec le développement de l'intelligence artificielle, l'application des grands modèles linguistiques (GLM) devient de plus en plus courante. Cependant, les méthodes actuelles de déduction présentent encore de nombreuses limites. La méthode générative autoregressive traditionnelle doit générer un à un les tokens, ce qui est inefficace et ne permet pas d'utiliser pleinement les capacités de calcul parallèle des ressources modernes. Pour résoudre ce problème, une équipe de recherche de l'université Carnegie Mellon (CMU) et d'Nvidia a introduit un nouveau modèle générique appelé Multiverse, visant à réaliser une génération native en parallèle, transformant fondamentalement notre compréhension de la déduction des GLM.

QQ20250618-091616.jpg

Multiverse ne s'agit pas simplement d'accélérer la vitesse de génération, mais de repenser l'architecture du modèle. Les chercheurs ont découvert que les modèles linguistiques principaux contenaient une certaine parallélisme lors du processus de génération. En se basant sur cette découverte, le cadre Multiverse adopte une structure similaire à MapReduce, divisant le processus de génération en trois étapes : la décomposition adaptative des tâches, l'exécution parallèle des sous-tâches, et la fusion sans perte des résultats. Cette conception peut maximiser le potentiel des ressources de calcul, réalisant ainsi un processus de déduction plus efficace.

image.png

Les données expérimentales montrent que le modèle Multiverse-32B améliore de près de 2 % les performances par rapport aux modèles autoregressifs traditionnels pour une longueur de contexte identique. Cela indique que Multiverse n'améliore non seulement la vitesse, mais aussi l'extensibilité, réalisant jusqu'à deux fois plus de vitesse dans différents tailles de lots. Pour rendre ces résultats accessibles à une large application, l'équipe de recherche a également rendu open source l'ensemble écologique Multiverse, y compris les données, les poids du modèle et les détails de formation, afin que d'autres chercheurs puissent explorer davantage.

Dans les applications pratiques, Multiverse peut ajuster dynamiquement sa configuration en fonction des besoins de génération et passer d'une génération séquentielle à une génération parallèle grâce à une étiquette de contrôle spécialisée, assurant la continuité et la logique du contenu généré. L'introduction de cette technologie injecte sans aucun doute une nouvelle vitalité dans le domaine du traitement du langage naturel, et nous attendons avec impatience son impact dans les applications réelles.