Meta propose une nouvelle couche de mémoire extensible pour améliorer les connaissances des modèles linguistiques et réduire les hallucinations

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Jan 8, 2025

177

Alors que les entreprises utilisent de plus en plus les grands modèles linguistiques (LLM), l'amélioration de la précision des connaissances du modèle et la réduction des hallucinations constituent un défi majeur. Des chercheurs de Meta AI proposent dans une nouvelle étude une « couche de mémoire extensible » qui pourrait apporter une solution à ce problème.

Meta, métavers, Facebook

L'idée principale de la couche de mémoire extensible est d'ajouter plus de paramètres aux LLM pour améliorer leurs capacités d'apprentissage, sans augmenter les ressources de calcul nécessaires à l'inférence. Cette architecture convient aux applications nécessitant le stockage d'un grand nombre de connaissances factuelles tout en maintenant une vitesse d'inférence rapide.

Les modèles linguistiques traditionnels utilisent des « couches denses » pour coder une grande quantité d'informations. Dans une couche dense, presque tous les paramètres sont activés simultanément lors de l'inférence, permettant d'apprendre des fonctions complexes, mais cela nécessite des ressources de calcul et d'énergie supplémentaires. Pour les connaissances factuelles simples, l'utilisation de couches simples avec une architecture de mémoire associative est plus efficace et plus facile à comprendre ; c'est le rôle de la couche de mémoire. La couche de mémoire code et récupère les connaissances grâce à un mécanisme simple d'activation clairsemée et de recherche par clé-valeur. Bien que les couches clairsemées occupent plus de mémoire que les couches denses, elles n'utilisent qu'un petit nombre de paramètres à la fois, améliorant ainsi l'efficacité du calcul.

Bien que les couches de mémoire existent depuis de nombreuses années, elles sont rarement utilisées dans les architectures modernes d'apprentissage profond, principalement parce qu'elles ne sont pas optimisées pour les accélérateurs matériels actuels. Les LLM de pointe actuels utilisent généralement une forme d'architecture « mélange d'experts », qui présente des similitudes avec les couches de mémoire. Les modèles de mélange d'experts sont constitués de plusieurs petits composants experts spécialisés, et un mécanisme de routage active des experts spécifiques lors de l'inférence.

Pour surmonter le défi de la faible consommation de calcul mais de la forte consommation de mémoire des couches de mémoire, les chercheurs de Meta ont proposé plusieurs améliorations pour les rendre réalisables dans les applications à grande échelle. Ils ont configuré la couche de mémoire pour le parallélisme, permettant de stocker des millions de paires clé-valeur sur plusieurs GPU sans ralentir la vitesse du modèle. De plus, ils ont développé des noyaux CUDA spécifiques pour gérer les opérations à large bande passante mémoire et mis en œuvre un mécanisme de partage de paramètres permettant à plusieurs couches de mémoire de partager un ensemble de paramètres mémoire.

En modifiant le modèle Llama, en remplaçant une ou plusieurs couches denses par une couche de mémoire partagée, les chercheurs ont testé le modèle amélioré par la mémoire. Leurs recherches ont montré que le modèle à mémoire surpasse les modèles de base denses sur plusieurs tâches, en particulier celles nécessitant des connaissances factuelles, et peut même rivaliser avec des modèles utilisant 2 à 4 fois plus de ressources de calcul.

Lien de l'article : https://arxiv.org/abs/2412.09764

Points clés :
🧠 La couche de mémoire extensible permet d'améliorer les capacités d'apprentissage des modèles linguistiques sans augmenter les ressources de calcul.
💡 Les recherches ont montré que la couche de mémoire surpasse les modèles de base denses sur plusieurs tâches, notamment celles nécessitant des connaissances factuelles.
🚀 Les chercheurs de Meta appellent à l'intégration de la couche de mémoire dans les architectures IA de prochaine génération afin de réduire les phénomènes d'oubli et d'hallucinations.

Grands modèles linguistiques Couche de mémoire extensible Meta AI Ressources de calcul

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Les chercheurs en IA de Nvidia présentent la technologie de fusion FFN : Accélération de l'inférence des grands modèles linguistiques

Mar 31, 2025

100

Prédiction de Kai-Fu Lee : seuls DeepSeek, Alibaba et ByteDance pourraient dominer le marché chinois des grands modèles linguistiques

Mar 21, 2025

Shanghai Pudong se concentre sur la robotique humanoïde et les grands modèles linguistiques pour créer un parc industriel innovant

Récemment, le district de Pudong à Shanghai a organisé une conférence de presse du gouvernement municipal. La vice-maire Li Hui a déclaré lors de la conférence que Pudong déploierait tous ses efforts pour se concentrer sur les domaines de la technologie de pointe tels que la robotique humanoïde, les grands modèles linguistiques et la fabrication biologique, afin de construire un certain nombre de parcs industriels emblématiques distinctifs. Cette mesure témoigne non seulement de la vision stratégique de Pudong dans le contexte de l'environnement d'investissement mondial, mais aussi des bases solides pour l'innovation technologique future. Li Hui a indiqué que Pudong renforcerait la communication avec les entreprises, comprendrait les besoins du marché et renforcerait le soutien de divers facteurs. Afin de mieux servir les industries émergentes, Pudong prévoit de...

Mar 20, 2025

Li Kaifu lance la plateforme de grands modèles linguistiques Wan Zhi Enterprise, soulignant une nouvelle orientation de la compétition des grands modèles

Li Kaifu a lancé une nouvelle plateforme de grands modèles linguistiques appelée Wan Zhi Enterprise. Cette plateforme marque une nouvelle orientation dans la compétition des grands modèles, en se concentrant sur [insérer ici les aspects clés de la plateforme, si disponibles dans le texte source]. Elle vise à [insérer ici les objectifs de la plateforme, si disponibles dans le texte source].

Mar 17, 2025

Baidu lance les grands modèles linguistiques Wenxin 4.5 et X1 : des prix fortement réduits suscitent l'intérêt

Baidu a récemment lancé ses nouveaux grands modèles linguistiques Wenxin 4.5 et Wenxin X1. Les utilisateurs peuvent expérimenter gratuitement ces modèles de pointe sur le site Web de Wenxin Yiyan. Wenxin 4.5 est le premier grand modèle multi-modal natif de Baidu, axé sur la compréhension multi-modale et le raisonnement logique. Ses performances ont surpassé celles de GPT-4.5 dans plusieurs tests de référence, et le prix de l'appel API n'est que de 1 % de celui de ce dernier. Cet avantage de prix significatif attirera sans aucun doute l'attention d'un plus grand nombre de développeurs et d'entreprises. Wenxin 4.5 a réalisé des progrès significatifs dans la compréhension multi-modale, démontrant une capacité à...

Mar 16, 2025

170

Abélien Technologie : Intégration de grands modèles d'IA dans les cockpits intelligents pour transformer l'expérience utilisateur automobile

Abélien Technologie révolutionne l'expérience utilisateur automobile en intégrant des grands modèles d'IA dans les cockpits intelligents. Cette intégration permet une interaction plus intuitive et personnalisée avec le véhicule, ouvrant la voie à de nouvelles fonctionnalités et à une conduite plus sûre et plus agréable.

Mar 11, 2025

Classement des hallucinations des grands modèles linguistiques IA : Gemini 2.0 Flash affiche le taux d'hallucinations le plus bas

Vectara a récemment publié un rapport intitulé « Classement des hallucinations », comparant les performances de différents grands modèles linguistiques (LLM) en matière de génération d'hallucinations lors de la synthèse de courts documents. Ce classement utilise le modèle d'évaluation des hallucinations Hughes de Vectara (HHEM-2.1), un modèle régulièrement mis à jour visant à évaluer la fréquence à laquelle ces modèles introduisent de fausses informations dans les résumés. Selon les dernières données, le rapport indique le taux d'hallucinations, le taux de cohérence factuelle, le taux de réponse et la longueur moyenne des résumés pour une série de modèles populaires.

Feb 20, 2025

3.3k

Comment les six leaders des grands modèles linguistiques peuvent-ils réinventer leur stratégie face à l'impact de DeepSeek ?

Au cours du dernier mois, le marché mondial des grands modèles linguistiques a été bouleversé par le lancement de DeepSeek, et de nombreuses entreprises ont été interrogées sur leur opinion et leur stratégie face à cette nouvelle force. Sur le marché intérieur chinois, les six start-ups de grands modèles linguistiques ayant déjà atteint le statut de licorne – 01.AI, Baichuan Intelligent, Jietuo Xingchen, Zhipu Zhang, Yue Zhi Anmian et MiniMax – sont confrontées à des défis importants, mais leurs stratégies de réponse montrent des orientations différentes. Tout d'abord, le fondateur de 01.AI, Kai-Fu Lee, a déclaré précédemment qu'ils ne recherchaient plus un modèle super-large.

Feb 17, 2025

1.4k

Le scientifique en chef de l'IA de Meta prédit l'émergence d'un nouveau paradigme d'architecture de l'IA dans les cinq prochaines années, ouvrant la voie à la « décennie des robots »

Lors du récent débat sur la technologie de Davos, Yann LeCun, scientifique en chef de l'IA chez Meta, a fait des prédictions enthousiasmantes sur l'évolution de l'intelligence artificielle au cours des cinq prochaines années. Il estime que les systèmes d'IA actuels connaîtront une transformation majeure dans les trois à cinq prochaines années, avec l'émergence d'un « nouveau paradigme d'architecture de l'IA » qui surpassera les capacités des IA génératives et des grands modèles linguistiques (LLM) couramment utilisés aujourd'hui. LeCun souligne que si les LLM actuels affichent de bonnes performances en traitement du langage, ils...

Jan 24, 2025

1.6k

Microsoft et OpenAI ajustent leur partenariat, ouvrant l'accès aux ressources de calcul des concurrents

Dans un communiqué récent, Microsoft et OpenAI ont annoncé un ajustement important de leur partenariat. Selon le nouvel accord, OpenAI aura accès aux ressources de calcul de ses concurrents, brisant ainsi la dépendance exclusive à l'infrastructure cloud Azure de Microsoft. Ce changement signifie qu'OpenAI bénéficiera d'une plus grande flexibilité pour la recherche et développement et l'entraînement de ses modèles à l'avenir. Microsoft a indiqué que le nouvel accord modifie les clauses d'exclusivité concernant les nouvelles capacités de calcul, passant à un modèle de « droit de premier refus ». En d'autres termes, Microsoft aura...

Jan 22, 2025

1.0k

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu