全球50多位物理學家聯合開發“CritPt”基準測試,評估AI模型處理未公開復雜物理問題的能力,模擬博士研究生獨立研究水平。儘管谷歌Gemini3Pro和OpenAI GPT-5被寄予厚望,但結果令人失望,Gemini3Pro準確率僅9.1%,突顯AI在高級科研任務中的侷限。
最新物理基準測試“CritPt”顯示,頂尖AI模型如Gemini3Pro和GPT-5距離成爲自主科學家仍有巨大差距。該測試由全球50多位物理學家開發,重點考覈博士級科研實戰能力,而非單純知識記憶,突顯AI在創造性研究中的侷限性。