VideoRAG es un innovador marco de generación mejorado con recuperación, especializado en la comprensión y el procesamiento de videos de contexto extremadamente largo. Combina el anclaje de conocimiento textual impulsado por grafos y la codificación contextual multimodal jerárquica para lograr la comprensión de videos de longitud ilimitada. El marco puede construir dinámicamente grafos de conocimiento, manteniendo la coherencia semántica del contexto de múltiples videos y optimizando la eficiencia de recuperación mediante un mecanismo de fusión multimodal adaptativa. Las principales ventajas de VideoRAG incluyen una eficiente capacidad de procesamiento de videos de contexto extremadamente largo, un índice de conocimiento de video estructurado y una capacidad de recuperación multimodal, lo que le permite proporcionar respuestas completas a consultas complejas. Este marco tiene un importante valor tecnológico y perspectivas de aplicación en el campo de la comprensión de videos largos.