Video-MME ist ein Benchmark, der sich auf die Leistungsbewertung großer multimodaler Sprachmodelle (MLLMs) im Bereich der Videoanalyse konzentriert. Er schließt die Lücke in bestehenden Bewertungsmethoden bezüglich der Verarbeitung kontinuierlicher visueller Daten durch MLLMs und bietet Forschern eine hochwertige und umfassende Bewertungsplattform. Der Benchmark umfasst Videos unterschiedlicher Länge und bewertet die Kernfähigkeiten von MLLMs.