Video-MME es un benchmark centrado en la evaluación del rendimiento de los grandes modelos de lenguaje multimodal (MLLM) en el ámbito del análisis de vídeo. Llena el vacío existente en los métodos de evaluación actuales con respecto a la capacidad de los MLLM para procesar datos visuales continuos, proporcionando a los investigadores una plataforma de evaluación completa y de alta calidad. Este benchmark abarca vídeos de diferentes longitudes y evalúa las capacidades centrales de los MLLM.