LongVU est un modèle innovant de compréhension du langage vidéo long. Il utilise un mécanisme de compression spatio-temporelle adaptative pour réduire le nombre de marqueurs vidéo tout en préservant les détails visuels des longues vidéos. L'importance de cette technologie réside dans sa capacité à traiter un grand nombre d'images vidéo avec une perte minimale d'informations visuelles dans une longueur de contexte limitée, améliorant ainsi considérablement la compréhension et l'analyse du contenu vidéo long. LongVU surpasse les méthodes existantes dans plusieurs tests de référence de compréhension vidéo, notamment pour la compréhension de vidéos d'une heure. De plus, LongVU peut être efficacement étendu à des modèles de plus petite taille tout en conservant des performances de pointe en matière de compréhension vidéo.