Esta herramienta tiene como objetivo evaluar la capacidad de generalización, la confiabilidad y la capacidad de razonamiento causal de los MLLM propietarios y de código abierto más recientes, a través de un estudio cualitativo desde cuatro modalidades: texto, código, imágenes y video, con el fin de mejorar la transparencia de los MLLM. Creemos que estas propiedades son factores representativos clave para definir la fiabilidad de los MLLM y respaldar diversas aplicaciones downstream. En concreto, hemos evaluado GPT-4 y Gemini (propietarios) y 6 MLLM y LLMs de código abierto. En total, hemos evaluado 230 casos diseñados manualmente, cuyos resultados cualitativos se resumen en 12 puntuaciones (es decir, 4 modalidades multiplicadas por 3 propiedades). En total, hemos revelado 14 hallazgos empíricos que ayudan a comprender las capacidades y limitaciones de los MLLM propietarios y de código abierto para respaldar de manera más fiable las aplicaciones downstream multimodales.