O Último Exame da Humanidade é um benchmark multimodal desenvolvido em colaboração por especialistas globais, projetado para medir o desempenho de modelos de linguagem de grande porte em domínios acadêmicos. Ele contém 3000 questões contribuídas por quase 1000 especialistas de mais de 500 instituições em 50 países, cobrindo mais de 100 disciplinas. Este teste visa ser o benchmark acadêmico fechado definitivo, impulsionando o desenvolvimento da tecnologia de IA ao desafiar os limites dos modelos. Sua principal vantagem é a alta dificuldade, permitindo a avaliação eficaz do desempenho dos modelos em problemas acadêmicos complexos.