Keine Schulung nötig! Q-Filters ermöglichen effiziente Komprimierung des KV-Caches und verbessern die Inferenzleistung

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Mar 7, 2025

In den letzten Jahren haben große Sprachmodelle (LLMs) basierend auf der Transformer-Architektur bemerkenswerte Fortschritte gemacht. Neue Modelle wie Gemini-Pro1.5, Claude-3, GPT-4 und Llama-3.1 können Hunderte oder Tausende von Tokens verarbeiten.

Diese erweiterten Kontextlängen bringen jedoch einige erhebliche Herausforderungen für die praktische Anwendung mit sich. Mit zunehmender Sequenzlänge steigt die Decodierungsverzögerung, und Speicherbeschränkungen werden zu einem ernsthaften Engpass. Der KV-Cache speichert während des Inferenzprozesses Kontextinformationen. Mit zunehmender Kontextlänge wächst auch die Größe des Caches proportional, was zu einer Speichersättigung führt und die Effizienz bei der Verarbeitung langer Eingabefolgen stark beeinträchtigt. Daher sind dringend Optimierungslösungen erforderlich.

Obwohl es auf dem Markt einige trainingsfreie Methoden gibt, hängen diese in der Regel von der Extraktion von Aufmerksamkeitsgewichten ab, um die Wichtigkeit von Schlüssel-Wert-Paaren zu bestimmen. Dies macht sie mit effizienten Aufmerksamkeitsalgorithmen wie FlashAttention inkompatibel. Diese Methoden erfordern oft eine teilweise Neuberechnung der Aufmerksamkeitsmatrix, wodurch Zeit- und Speicheraufwand entstehen. Daher werden bestehende Kompressionsalgorithmen hauptsächlich verwendet, um Prompts vor der Antwortgenerierung zu komprimieren, anstatt den speicherbeschränkten Generierungsprozess zu optimieren. Diese Einschränkung unterstreicht die Notwendigkeit, Kompressionstechniken zu entwickeln, die sowohl die Modellleistung beibehalten als auch keine Architekturänderungen erfordern.

Ein Forschungsteam der Sorbonne Universität, des französischen Nationalen Instituts für Informatik und Automatisierung, der Universität La Sapienza in Rom, der Universität Edinburgh und Miniml.AI hat Q-Filters vorgestellt, eine leistungsstarke, trainingsfreie KV-Cache-Kompressionstechnik, die eine abfragebasierte Filtermethode verwendet, um die Speichernutzung zu optimieren und gleichzeitig die Modellleistung zu erhalten. Q-Filters bewertet die Wichtigkeit von Schlüssel-Wert-Paaren, die mit der aktuellen Abfrage zusammenhängen, anstatt sich auf Aufmerksamkeitsgewichte zu verlassen. Diese Methode gewährleistet die Kompatibilität mit effizienten Aufmerksamkeitsalgorithmen und erfordert weder ein erneutes Training noch Architekturänderungen. Durch die dynamische Bewertung und Beibehaltung der relevantesten Kontextinformationen erreicht Q-Filters eine erhebliche Speicherreduzierung bei gleichzeitiger Aufrechterhaltung der Inferenzqualität.

Q-Filters hat sich in mehreren Bewertungsszenarien als hervorragend erwiesen und übertrifft stets bestehende KV-Cache-Kompressionsmethoden. Bei Tests zur Sprachmodellierung auf dem Pile-Datensatz erzielte die Technik die niedrigste Perplexität aller Kompressionsverfahren. Besonders beim Llama-3.1-70B-Modell zeigt Q-Filters eine deutliche Perplexitätsreduzierung im zweiten Teil der Sequenz, wo die Beibehaltung des Kontextes entscheidend ist.

Bei der „Nadel im Heuhaufen“-Aufgabe behält Q-Filters eine Genauigkeit von 91 % bei und bewahrt erfolgreich wichtige Informationen in extrem langen Kontexten (von 1K bis 64K Tokens). Eine umfassende Bewertung bestätigt die Überlegenheit des Verfahrens, insbesondere bei hohen Kompressionsraten (32-fach), wobei Q-Filters in Benchmarks für die Langkontextmodellierung die höchste Punktzahl erreicht.

论文:https://arxiv.org/abs/2503.02812

huggingface:https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119

Wichtigste Punkte:
🔍 Q-Filters ist eine trainingsfreie KV-Cache-Kompressionstechnik, die die Speichernutzung effektiv optimiert, ohne die Modellleistung zu beeinträchtigen.
📊 Das Verfahren zeigt in mehreren Bewertungen eine überragende Leistung, insbesondere bei der Sprachmodellierung und bei Aufgaben mit extrem langen Kontexten, mit der niedrigsten Perplexität und der höchsten Genauigkeit.
🛠️ Q-Filters ist mit effizienten Aufmerksamkeitsalgorithmen kompatibel und kann nach einem einmaligen Vorbereitungsschritt nach dem Modelltraining in praktischen Anwendungen eingesetzt werden.

Großes Upgrade der Gemini API! Die URL-Context-Funktion ist live – eine neue Methode, um Webinhalte direkt monetarisieren!

Kürzlich hat Gemini die URL-Context-Funktion offiziell eingeführt. Dieses innovative Tool ermöglicht es Entwicklern, direkt in der API Webverknüpfungen einzubetten und damit den Prozess des Inhaltsabholens stark zu vereinfachen. Gleichzeitig eröffnen sich für Content-Anbieter und Entwickler völlig neue geschäftliche Möglichkeiten. Das Redaktionsteam von AIbase gibt Ihnen eine detaillierte Analyse dieser Funktion und ihrer potenziellen Auswirkungen. URL-Context-Funktion: Ohne aufwendige Skripte, effizienter Inhaltszugriff. Die URL-Context-Funktion der Gemini API ermöglicht es Entwicklern

Tencent AudioGenie taucht auf! Eine Klick-Generation von Kinoqualität - Claude und Gemini zittern vor Angst!

Mit der raschen Entwicklung der KI-Technologie hat sich ein schwerwiegender Spieler im Bereich der Audioerzeugung eingefunden – AudioGenie, entwickelt vom Tencent AI Lab. Dieses innovative multimodale Audioerzeugungswerkzeug verändert gerade das globale KI-Audio-Marktgefüge mit seinen natürlichen und passenden Erzeugungseffekten, seiner starken Fähigkeit zur Kontextverständigung und der Eigenschaft, dass keine Trainingsphase erforderlich ist. Multimodale Eingabe, umfassende Audioausgabe. AudioGenie unterstützt verschiedene Modaleingaben wie Videos, Texte und Bilder und kann Soundeffekte, Sprache, Musik sowie gemischte Audioausgaben erzeugen. Egal

Das virtuelle Probier-Tool Voost kann die Textur und Falten der Kleidung genau nachbilden

Forscher haben das Voost-Framework entwickelt, das durch einen einzigen Diffusions-Transformator bidirektionales Lernen für virtuelles Anprobieren und Ausziehen ermöglicht, ohne zusätzliche Etiketten. Es verwendet innovative Techniken wie Aufmerksamkeits-Temperaturskalierung und selbstkorrigierende Abtastung, um die Stabilität des Modells zu verbessern. In verschiedenen Benchmark-Tests zeigte es hervorragende Leistungen und erhöhte signifikant die Genauigkeit der Ausrichtung von Kleidung und Körper sowie die Qualität der Generierung. Diese Technologie bringt einen Durchbruch im Bereich Digital Fashion, und das Projekt ist open source.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Keine Schulung nötig! Q-Filters ermöglichen effiziente Komprimierung des KV-Caches und verbessern die Inferenzleistung

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Großes Upgrade der Google Gemini API: Eine Zeile Code, um Webseiten direkt zu erfassen, die Entwicklungsproduktivität wird stark erhöht

Großes Upgrade der Gemini API! Die URL-Context-Funktion ist live – eine neue Methode, um Webinhalte direkt monetarisieren!

Tencent AudioGenie taucht auf! Eine Klick-Generation von Kinoqualität - Claude und Gemini zittern vor Angst!

Oracle y Google Cloud se unen para traer el avanzado modelo de IA Gemini

Neue Daten von OpenRouter zeigen: Qwen3 steigert sich stark, Claude und Gemini verlieren Marktanteile

Google Gemini erhält eine wichtige Aktualisierung! Neue Merkfunktion und Privatgesprächsmodus

Google führt neue KI-Bildbearbeitungsfunktionen für Slides und Vids ein - einfach Hintergründe ersetzen und erweitern

Microsoft präsentiert mit POML eine neue künstliche Intelligenz-Notation, die die Prompt-Engineering-Technik revolutioniert. Wird es zukünftig erneut eine Wiederholung von XML sein?

Das virtuelle Probier-Tool Voost kann die Textur und Falten der Kleidung genau nachbilden

Künstliche Intelligenz senkt den Wert des Wissens. Sollten Hochschulen überdenken, was sie lehren?