阶跃星辰开源多模态视觉语言模型Step3-VL-10B,仅10B参数却在多项基准测试中表现卓越,解决了小模型智能水平不足的痛点。该模型在视觉感知、逻辑推理和数学竞赛等维度达到同规模最优,甚至超越规模大10至20倍的开源及闭源旗舰模型。
字节跳动Seed AI团队发布数学推理模型Seed Prover1.5,在国际数学奥林匹克竞赛中表现优异,获得金牌。该模型基于Scaling Law理论,仅用16.5小时便解决IMO2025前五题,仅失一题,以35分达到金牌标准,成绩与谷歌Gemini相当,相比此前模型效率大幅提升。
字节跳动Seed团队推出形式化数学推理模型Seed Prover1.5,通过大规模Agentic强化学习显著提升推理能力与效率。该模型在2025年国际数学奥林匹克竞赛中,三天内成功解决六题中的四道,并完成一道题的部分解答,展现强大性能。
AI模型在科学推理能力评估方面取得重要进展,已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展,AI正有效加速真实科学研究进程,展现出强大的假设提出、测试修正及跨领域综合能力。
PRIME通过隐式奖励增强在线强化学习,提升语言模型的推理能力。
新一代最强推理模型
数学领域的开源AI模型,助力数学竞赛。
数学竞赛问题的解决方案集合
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Moonshot
Bytedance
$0.8
32
prithivMLmods
VibeThinker-1.5B是微博AI推出的15亿参数密集语言模型,基于Qwen2.5-Math-1.5B微调,专门针对数学和算法编码问题设计。采用'频谱到信号原理'框架训练,在多个数学竞赛测试中超越规模更大的模型,训练成本约7800美元,支持最长约40k词元的输出。
togethercomputer
M1是一个基于Mamba混合架构的3B参数规模模型,专注于数学推理任务,在多项数学竞赛基准测试中表现优异。
nvidia
基于Qwen2.5-14B微调的数学推理模型,在AIMO-2 Kaggle竞赛中获得第一名
qihoo360
Light-R1-32B是基于Qwen2.5-32B-Instruct训练的数学竞赛专用模型,通过课程式SFT与DPO技术实现超越DeepSeek-R1-Distill的性能,训练成本仅1000美元。