Alors que les entreprises utilisent de plus en plus les grands modèles linguistiques (LLM), l'amélioration de la précision des connaissances du modèle et la réduction des hallucinations constituent un défi majeur. Des chercheurs de Meta AI proposent dans une nouvelle étude une « couche de mémoire extensible » qui pourrait apporter une solution à ce problème.
L'idée principale de la couche de mémoire extensible est d'ajouter plus de paramètres aux LLM pour améliorer leurs capacités d'apprentissage, sans augmenter les ressources de calcul nécessaires à l'inférence. Cette architecture convient aux applications nécessitant le stockage d'un grand nombre de connaissances factuelles tout en maintenant une vitesse d'inférence rapide.
Les modèles linguistiques traditionnels utilisent des « couches denses » pour coder une grande quantité d'informations. Dans une couche dense, presque tous les paramètres sont activés simultanément lors de l'inférence, permettant d'apprendre des fonctions complexes, mais cela nécessite des ressources de calcul et d'énergie supplémentaires. Pour les connaissances factuelles simples, l'utilisation de couches simples avec une architecture de mémoire associative est plus efficace et plus facile à comprendre ; c'est le rôle de la couche de mémoire. La couche de mémoire code et récupère les connaissances grâce à un mécanisme simple d'activation clairsemée et de recherche par clé-valeur. Bien que les couches clairsemées occupent plus de mémoire que les couches denses, elles n'utilisent qu'un petit nombre de paramètres à la fois, améliorant ainsi l'efficacité du calcul.
Bien que les couches de mémoire existent depuis de nombreuses années, elles sont rarement utilisées dans les architectures modernes d'apprentissage profond, principalement parce qu'elles ne sont pas optimisées pour les accélérateurs matériels actuels. Les LLM de pointe actuels utilisent généralement une forme d'architecture « mélange d'experts », qui présente des similitudes avec les couches de mémoire. Les modèles de mélange d'experts sont constitués de plusieurs petits composants experts spécialisés, et un mécanisme de routage active des experts spécifiques lors de l'inférence.
Pour surmonter le défi de la faible consommation de calcul mais de la forte consommation de mémoire des couches de mémoire, les chercheurs de Meta ont proposé plusieurs améliorations pour les rendre réalisables dans les applications à grande échelle. Ils ont configuré la couche de mémoire pour le parallélisme, permettant de stocker des millions de paires clé-valeur sur plusieurs GPU sans ralentir la vitesse du modèle. De plus, ils ont développé des noyaux CUDA spécifiques pour gérer les opérations à large bande passante mémoire et mis en œuvre un mécanisme de partage de paramètres permettant à plusieurs couches de mémoire de partager un ensemble de paramètres mémoire.
En modifiant le modèle Llama, en remplaçant une ou plusieurs couches denses par une couche de mémoire partagée, les chercheurs ont testé le modèle amélioré par la mémoire. Leurs recherches ont montré que le modèle à mémoire surpasse les modèles de base denses sur plusieurs tâches, en particulier celles nécessitant des connaissances factuelles, et peut même rivaliser avec des modèles utilisant 2 à 4 fois plus de ressources de calcul.
Lien de l'article : https://arxiv.org/abs/2412.09764
Points clés :
🧠 La couche de mémoire extensible permet d'améliorer les capacités d'apprentissage des modèles linguistiques sans augmenter les ressources de calcul.
💡 Les recherches ont montré que la couche de mémoire surpasse les modèles de base denses sur plusieurs tâches, notamment celles nécessitant des connaissances factuelles.
🚀 Les chercheurs de Meta appellent à l'intégration de la couche de mémoire dans les architectures IA de prochaine génération afin de réduire les phénomènes d'oubli et d'hallucinations.