Les laboratoires de recherche d'Alibaba ont mis en open source un grand modèle linguistique multilingue Babel, dont l'ambitieux objectif est de combler le fossé linguistique et de permettre à l'IA de comprendre et d'utiliser les langues de plus de 90 % de la population mondiale.

De nombreux grands modèles linguistiques actuels privilégient souvent les langues riches en ressources telles que l'anglais, le français et l'allemand. Cependant, à l'instar des locuteurs de langues minoritaires rarement mentionnés lors des conférences internationales, les langues comme l'hindi, le bengali et l'ourdou, qui comptent un grand nombre d'utilisateurs, sont souvent négligées dans le domaine de l'IA.

Babel d'Alibaba vise à changer cette situation. Il prend en charge les 25 langues les plus parlées au monde, couvrant plus de 90 % de la population mondiale. Plus remarquable encore, Babel s'intéresse également à des langues comme le swahili, le javanais et le birman, rarement abordées dans les LLM open source. Cette initiative offrira sans aucun doute des services linguistiques IA plus pratiques et de meilleure qualité à des milliards de personnes utilisant ces langues.

QQ_1741318123013.png

Contrairement aux méthodes classiques d'entraînement continu, Babel utilise une technique d'extension de couches unique pour améliorer les capacités du modèle. Cette méthode peut être considérée comme un moyen plus sophistiqué d'ajouter des « connaissances » à la base du modèle, améliorant ainsi les performances tout en garantissant l'efficacité du calcul. L'équipe de recherche a présenté deux modèles distincts : Babel-9B, optimisé pour l'inférence et l'ajustement précis sur un seul GPU ; et Babel-83B, un « géant » de 83 milliards de paramètres visant à établir une nouvelle référence pour les LLM multilingues open source.

QQ_1741318135518.png

Pour vérifier les performances de Babel, l'équipe de recherche a effectué des évaluations rigoureuses sur plusieurs tâches multilingues. Les résultats sont encourageants : que ce soit Babel-9B (9 milliards de paramètres) ou Babel-83B (83 milliards de paramètres), ils ont tous deux surpassé les autres modèles open source de taille comparable dans plusieurs tests de référence. Par exemple, Babel a excellé dans des tâches telles que la connaissance du monde (MMMLU, M3Exam), le raisonnement (MGSM, XCOPA), la compréhension (XNLI) et la traduction (Flores-200).

Il est particulièrement important de noter que la précision de Babel dans le traitement des langues à faibles ressources a été améliorée de 5 % à 10 % par rapport aux LLM multilingues précédents. Cela démontre clairement que Babel améliore non seulement la couverture linguistique, mais aussi les performances du modèle dans diverses langues.

Plus surprenant encore, après un ajustement fin supervisé (SFT) sur plus d'un million de jeux de données de conversation, les versions conversationnelles de Babel, Babel-9B-Chat et Babel-83B-Chat, ont démontré de puissantes capacités conversationnelles, atteignant même les performances de certains modèles IA commerciaux de pointe, Babel-83B-Chat rivalisant même avec GPT-4o sur certaines tâches. Cela injecte sans aucun doute une nouvelle vitalité dans la communauté open source, prouvant que les modèles open source peuvent également atteindre des positions de leader en matière de capacités multilingues.

Projet : https://babel-llm.github.io/babel-llm/

GitHub : https://github.com/babel-llm/babel-llm