Da Unternehmen immer häufiger große Sprachmodelle (LLMs) einsetzen, stellt sich die wichtige Herausforderung, die Genauigkeit des Wissens der Modelle zu verbessern und Halluzinationen zu reduzieren. Forscher von Meta AI schlagen in einer neuen Studie eine „skalierbare Gedächtnisebene“ vor, die möglicherweise eine Lösung für dieses Problem bietet.

Meta, Metaverse, Facebook

Die Kernidee der skalierbaren Gedächtnisebene besteht darin, LLMs mehr Parameter hinzuzufügen, um ihre Lernfähigkeit zu verbessern, ohne den Rechenaufwand während des Inferenzprozesses zu erhöhen. Diese Architektur eignet sich für Anwendungen, die eine große Menge an Faktenwissen speichern müssen, aber gleichzeitig eine schnelle Inferenz benötigen.

Traditionelle Sprachmodelle verwenden „dichte Schichten“, um eine große Menge an Informationen zu kodieren. In dichten Schichten sind fast alle Parameter während der Inferenz gleichzeitig aktiv, wodurch komplexe Funktionen gelernt werden können. Dies erfordert jedoch zusätzliche Rechenleistung und Energie. Für einfache Faktenwissen ist eine einfache Schicht mit assoziativer Gedächtnisarchitektur effizienter und leichter verständlich – dies ist die Aufgabe der Gedächtnisebene. Die Gedächtnisebene kodiert und ruft Wissen über einfache, dünn besetzte Aktivierungen und Schlüssel-Wert-Suchmechanismen ab. Obwohl dünn besetzte Schichten einen höheren Speicherbedarf als dichte Schichten haben, verwenden sie gleichzeitig nur wenige Parameter, was die Rechenleistung verbessert.

Obwohl Gedächtnisebenen schon seit Jahren existieren, werden sie in modernen Deep-Learning-Architekturen selten eingesetzt, hauptsächlich weil sie nicht für aktuelle Hardware-Beschleuniger optimiert sind. Moderne LLMs verwenden in der Regel eine Form der „Expertenmischung“-Architektur, die Ähnlichkeiten mit Gedächtnisebenen aufweist. Expertenmischungsmodelle bestehen aus mehreren spezialisierten, kleineren Expertenkomponenten, die über einen Routing-Mechanismus während der Inferenz bestimmte Experten aktivieren.

Um die Herausforderung zu bewältigen, dass Gedächtnisebenen zwar rechnerisch leichtgewichtig, aber speicherintensiv sind, schlagen die Meta-Forscher mehrere Verbesserungen vor, um ihre Machbarkeit in großen Anwendungen zu gewährleisten. Sie haben die Gedächtnisebene parallelisiert, um Millionen von Schlüssel-Wert-Paaren auf mehreren GPUs zu speichern, ohne die Geschwindigkeit des Modells zu verlangsamen. Darüber hinaus haben sie spezielle CUDA-Kerne für die Verarbeitung von Operationen mit hoher Speicherbandbreite entwickelt und einen Parameter-Sharing-Mechanismus implementiert, der es mehreren Gedächtnisebenen ermöglicht, einen Satz von Speicherparametern gemeinsam zu nutzen.

Durch Modifikation des Llama-Modells, wobei eine oder mehrere dichte Schichten durch gemeinsam genutzte Gedächtnisebenen ersetzt wurden, testeten die Forscher das gedächtniserweiterte Modell. Ihre Forschung ergab, dass das Gedächtnismodell in mehreren Aufgaben eine hervorragende Leistung zeigte, insbesondere bei Aufgaben, die Faktenwissen erfordern. Die Leistung übertraf deutlich die dichte Baseline und konnte sogar mit Modellen konkurrieren, die die zwei- bis vierfache Rechenleistung aufweisen.

Link zur Studie: https://arxiv.org/abs/2412.09764

Wichtigste Punkte:

🧠 Skalierbare Gedächtnisebenen können die Lernfähigkeit von Sprachmodellen verbessern, ohne den Rechenaufwand zu erhöhen.

💡 Die Forschung zeigt, dass Gedächtnisebenen in mehreren Aufgaben eine hervorragende Leistung erbringen, insbesondere bei Aufgaben, die Faktenwissen erfordern.

🚀 Die Meta-Forscher fordern die Integration von Gedächtnisebenen in die nächste Generation von KI-Architekturen, um Vergessen und Halluzinationen zu reduzieren.