字节跳动Seed AI团队发布数学推理模型Seed Prover1.5,在国际数学奥林匹克竞赛中表现优异,获得金牌。该模型基于Scaling Law理论,仅用16.5小时便解决IMO2025前五题,仅失一题,以35分达到金牌标准,成绩与谷歌Gemini相当,相比此前模型效率大幅提升。
字节跳动Seed团队推出形式化数学推理模型Seed Prover1.5,通过大规模Agentic强化学习显著提升推理能力与效率。该模型在2025年国际数学奥林匹克竞赛中,三天内成功解决六题中的四道,并完成一道题的部分解答,展现强大性能。
AI模型在科学推理能力评估方面取得重要进展,已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展,AI正有效加速真实科学研究进程,展现出强大的假设提出、测试修正及跨领域综合能力。
DeepSeek发布全球首个开源数学推理大模型DeepSeek-Math-V2,拥有6850亿参数,达到国际数学奥赛金牌水平。该模型基于DeepSeek-V3.2架构,采用Apache2.0协议开源,其核心突破是创新的“生成-验证”双模型闭环机制,显著提升了数学推理能力。
AI数学奥林匹克解决方案
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Moonshot
Bytedance
$0.8
32
scb10x
台风T1 3B是SCB 10X开发的新型开放推理模型系列的首款产品。该模型基于Llama 3.2架构,具备跨领域推理能力,在GPQA、MMLU Pro和AI数学奥林匹克等基准测试中表现优异,特别支持泰语推理过程生成。