多模態大模型視覺推理能力評估:o3 僅得 25.8% 分數
近日,由清華大學、騰訊混元、斯坦福大學及卡耐基梅隆大學的研究團隊聯合發佈了一項新評估基準 ——RBench-V,專門針對多模態大模型的視覺推理能力進行測試。該基準的推出,旨在填補當前評估體系中對模型視覺輸出能力的空白,以便更全面地瞭解現有模型的性能。RBench-V 基準測試包含803道題目,涉及多個領域,包括幾何與圖論、力學與電磁學、多目標識別和路徑規劃等。與以往只要求文字回答的評估不同,這次評測特別要求模型生成或修改圖像內容,以支持推理過程。這意味着,模