本ツールは、最新の独自開発およびオープンソースのMLLMを定性的研究することにより、テキスト、コード、画像、動画の4つのモダリティから、その汎化能力、信頼性、因果推論能力を評価し、MLLMの透明性を高めることを目的としています。これらの属性は、様々な下流アプリケーションを支えるMLLMの信頼性を定義する上で重要な要素であると考えています。具体的には、クローズドソースのGPT-4とGemini、ならびに6つのオープンソースLLMおよびMLLMを評価しました。全体として、230個の手動設計された事例を評価し、定性的な結果は12個のスコア(モダリティ4つ×属性3つ)に要約されています。合計で14の経験的知見を明らかにし、独自開発とオープンソースのMLLMの能力と限界を理解し、より信頼性の高い多様なモダリティの下流アプリケーションをサポートすることに役立てます。