CMU、Meta聯手放大招! VQAScore一個問題搞定文生圖模型評測,準確性遠超傳統方法!
生成式AI發展迅猛,但如何全面評估其性能一直是個難題。各種模型層出不窮,效果也是越來越驚豔。但是,問題來了,怎麼評價這些文生圖模型的效果呢?傳統的評價方法,要麼是靠人眼看,主觀性太強;要麼是用一些簡單的指標,比如CLIPScore,但這些指標往往無法捕捉到複雜文本提示中的細節,比如對象之間的關係、邏輯推理等等。這就導致很多文生圖模型的評測結果不準確,甚至會出現一些搞笑的情況,明明生成的圖片驢脣不對馬嘴,得分卻還挺高。爲了解決這個問題,卡耐基梅隆大學