VideoRAG est un framework de génération amélioré par la recherche innovant, spécialement conçu pour comprendre et traiter des vidéos à contexte extrêmement long. Il permet de comprendre des vidéos de longueur illimitée grâce à la combinaison d'un ancrage des connaissances textuelles piloté par un graphe et d'un codage contextuel multi-modal hiérarchique. Ce framework est capable de construire dynamiquement un graphe de connaissances, de maintenir la cohérence sémantique du contexte multi-vidéos et d'optimiser l'efficacité de la recherche grâce à un mécanisme d'intégration multi-modale adaptatif. Les principaux avantages de VideoRAG incluent une capacité de traitement efficace des vidéos à contexte extrêmement long, un index de connaissances vidéo structuré et une capacité de recherche multi-modale, lui permettant de fournir des réponses complètes à des requêtes complexes. Ce framework présente une importante valeur technique et des perspectives d'application prometteuses dans le domaine de la compréhension des longues vidéos.