全球50多位物理学家联合开发“CritPt”基准测试,评估AI模型处理未公开复杂物理问题的能力,模拟博士研究生独立研究水平。尽管谷歌Gemini3Pro和OpenAI GPT-5被寄予厚望,但结果令人失望,Gemini3Pro准确率仅9.1%,突显AI在高级科研任务中的局限。
最新物理基准测试“CritPt”显示,顶尖AI模型如Gemini3Pro和GPT-5距离成为自主科学家仍有巨大差距。该测试由全球50多位物理学家开发,重点考核博士级科研实战能力,而非单纯知识记忆,突显AI在创造性研究中的局限性。