世界50人以上の物理学者が開発した「CritPt」ベンチマークでAIを評価。未公開の複雑な物理問題への対応力を博士課程レベルでテストしたが、Gemini3Proの正解率は9.1%に留まり、AIの科学研究における限界が浮き彫りに。....
最新物理ベンチマーク「CritPt」によると、Gemini3ProやGPT-5などの最先端AIモデルは自律的科学者になるには依然として大きな隔たりがある。50人以上の物理学者が開発したこのテストは、知識記憶ではなく博士レベルの実践的研究能力を評価し、AIの創造的研究における限界を浮き彫りにした。....