瑞士数学家施密特宣布,GPT-5在无人类干预下首次独立解决了一个长期未解的数学难题。其解决方案展现出惊人的创造力,跨界借鉴了代数几何其他分支的技术,而非遵循常规逻辑。这一突破印证了陶哲轩对AI潜力的预判。
谷歌为Gemini应用推出Gemini3Deep Think模式,面向Ultra订阅用户。该模式大幅增强推理能力,专攻复杂数学、科学及逻辑难题,挑战当前顶尖模型。在多项基准测试中表现卓越,如在“人类最后的考试”中无工具得分41.0%,在ARC-AGI-2测试中使用代码执行时成绩领先。
OpenAI的GPT-5Pro通过截图识别出埃尔德什问题#339早在2003年已有证明论文,这一发现震惊数学界。该数论难题由保罗·埃尔德什提出,核心探讨自然数集合A作为r阶基时,能否确保用其中r个元素覆盖特定数学性质。22年前已解决的悬案凸显AI在学术检索中的突破潜力。
大语言模型在数学几何题上表现不佳。GPT-4.1和Gemini-2.5-Pro虽在写作、编程领域优秀,但面对需画辅助线或函数图像的题目时频繁出错。根源在于模型擅长文本推理,却缺乏几何空间想象能力,无法精准脑中构图,导致错误结论。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Moonshot
Bytedance
$0.8
32