CAG (Cache-Augmented Generation) ist eine innovative Technik zur Verbesserung von Sprachmodellen, die darauf abzielt, Probleme wie Retrieval-Verzögerungen, Retrieval-Fehler und systemische Komplexität zu lösen, die bei traditionellen RAG-Methoden (Retrieval-Augmented Generation) auftreten. Durch Vorladen aller relevanten Ressourcen in den Modellkontext und Zwischenspeichern der Laufzeitparameter kann CAG während des Inferenzprozesses direkt Antworten generieren, ohne Echtzeit-Retrieval. Diese Methode reduziert nicht nur die Latenzzeiten erheblich und erhöht die Zuverlässigkeit, sondern vereinfacht auch das Systemdesign und stellt eine praktikable und skalierbare Alternative dar. Mit der stetigen Erweiterung des Kontextfensters großer Sprachmodelle (LLMs) wird CAG voraussichtlich in komplexeren Anwendungsszenarien eine Rolle spielen.