Cet outil vise à évaluer les capacités de généralisation, la fiabilité et le raisonnement causal des MLLM propriétaires et open source récents, à travers une étude qualitative menée sur quatre modalités : texte, code, image et vidéo. L'objectif est d'améliorer la transparence des MLLM. Nous considérons ces attributs comme des facteurs représentatifs de la fiabilité des MLLM, essentiels pour diverses applications en aval. Plus précisément, nous avons évalué GPT-4 et Gemini (propriétaires) ainsi que 6 LLM et MLLM open source. Au total, nous avons évalué 230 cas conçus manuellement, dont les résultats qualitatifs sont résumés en 12 scores (4 modalités x 3 attributs). Nous avons ainsi mis en lumière 14 découvertes empiriques contribuant à la compréhension des capacités et des limites des MLLM propriétaires et open source, pour un support plus fiable des applications multimodales en aval.