Das DEJAVU-System nutzt einen ökonomischen und effizienten Algorithmus, kombiniert mit asynchroner Verarbeitung und Hardware-Awareness, um die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) zu verbessern. Das Forschungsteam führte das Konzept der kontextuellen Sparsamkeit ein, wodurch Aufmerksamkeitsköpfe und MLP-Parameter dynamisch reduziert werden. Gleichzeitig wird eine hardware-aware spärliche Matrixmultiplikation eingesetzt, was die Latenz von LLMs deutlich senkt. Diese Forschung verspricht, LLMs für eine breitere AI-Community zugänglicher zu machen und neue AI-Anwendungen zu ermöglichen.
DEJAVU-System steigert die Inferenzgeschwindigkeit großer Sprachmodelle

站长之家
Dieser Artikel stammt aus dem AIbase-Tagesbericht
Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.