Das Forschungsteam von KI-Unternehmen DeepSeek gab am Montag bekannt, dass es ein neues Experimentiermodell namens V3.2-exp veröffentlicht hat. Dieses Modell zielt darauf ab, die Rechenkosten bei langen Kontextoperationen durch eine innovative „spärliche Aufmerksamkeits“-Mechanik erheblich zu reduzieren. Dieser Meilenstein wurde gleichzeitig auf Hugging Face und GitHub veröffentlicht und wird durch eine detaillierte wissenschaftliche Arbeit ergänzt.
Der Kern des Modells ist seine einzigartige DeepSeek-Spärlichkeitsaufmerksamkeitsmechanik. Dieses komplexe System besteht aus zwei Teilen: Zunächst sortiert ein Modul namens „Blitzindexer“ bestimmte Auszüge im Kontextfenster nach Priorität; anschließend wählt ein unabhängiges „feinkörniges Markenauswahl-System“ relevante Tokens aus diesen priorisierten Auszügen aus und lädt sie in das begrenzte Aufmerksamkeitsfenster. Die Kombination dieser Mechanismen ermöglicht es dem spärlichen Aufmerksamkeitsmodell, lange Kontextabschnitte effizient mit geringer Serverbelastung zu verarbeiten.
Bei den ersten Tests zeigte das neue Modell deutliche Vorteile. DeepSeek berichtet, dass sich bei langen Kontextoperationen die Kosten für einfache API-Aufrufe um bis zu 50 % reduzieren lassen. Obwohl noch weitere Testergebnisse von Dritten erforderlich sind, um diese Schlussfolgerungen zu bestätigen, wird die tatsächliche Leistung des Modells schnell durch die Industrie überprüft werden, da das Modell offene Gewichte besitzt und kostenlos auf Hugging Face zur Verfügung steht.
Die jüngste Innovation von DeepSeek ist eines der vielen Fortschritte, die in letzter Zeit dazu beitragen, das Problem der KI-Rechenkosten zu lösen. Die Rechenkosten beziehen sich auf die Serverkosten für die Ausführung eines trainierten KI-Modells, nicht auf die Trainingskosten. Im Gegensatz zu dem R1-Modell, das sich auf die Reduzierung der Trainingskosten konzentriert, legt dieses neue Modell den Fokus auf die Steigerung der Effizienz des grundlegenden Transformer-Architekturen und bietet somit eine wirtschaftlichere Lösung für die Verbreitung von KI-Anwendungen.