El Último Examen de la Humanidad es un banco de pruebas multimodal desarrollado en colaboración por expertos de todo el mundo, con el objetivo de medir el rendimiento de los modelos de lenguaje a gran escala en el ámbito académico. Contiene 3000 preguntas aportadas por cerca de 1000 expertos de más de 500 instituciones en 50 países, abarcando más de 100 disciplinas. Este test aspira a ser el banco de pruebas académico definitivo y cerrado, impulsando el desarrollo de la inteligencia artificial al desafiar los límites de los modelos. Su principal ventaja reside en su alta dificultad, lo que permite evaluar eficazmente el rendimiento de los modelos en problemas académicos complejos.