L'équipe Google a lancé VideoPrism, un nouveau codeur visuel universel. Pré-entraîné sur un vaste ensemble de données de vidéos et de paires de texte, il établit de nouveaux records de performance sur 30 tâches de pointe (SOTA). Ce modèle est capable de gérer diverses tâches de compréhension vidéo, notamment la classification, la localisation, la recherche, le sous-titrage et les questions-réponses.
VideoPrism de Google démontre une puissance et une capacité de généralisation remarquables, marquant une avancée significative dans le domaine de la vidéo.