CAG (Cache-Augmented Generation) es una innovadora técnica de mejora de modelos de lenguaje diseñada para abordar los problemas de retraso en la búsqueda, errores de recuperación y complejidad del sistema presentes en los métodos RAG (Retrieval-Augmented Generation) tradicionales. Al precargar todos los recursos relevantes en el contexto del modelo y almacenar en caché sus parámetros de ejecución, CAG puede generar respuestas directamente durante el proceso de inferencia sin necesidad de búsqueda en tiempo real. Este método no solo reduce significativamente la latencia y aumenta la fiabilidad, sino que también simplifica el diseño del sistema, convirtiéndolo en una alternativa práctica y escalable. Con la continua expansión de la ventana de contexto de los grandes modelos de lenguaje (LLM), CAG promete desempeñar un papel importante en escenarios de aplicación más complejos.