DeepSeek团队发布236B参数数学大模型DeepSeek-Math-V2,采用MoE架构,仅激活21B参数,支持128K上下文。该模型以Apache2.0开源,引发下载热潮。在数学测试中表现优异:MATH基准达75.7%,接近GPT-4o;AIME2024解题30中4,超越Gemini和Claude;Math Odyssey获53.7%成绩。其核心技术为“自验证”机制。
OpenAI研发的AI推理系统在2025年国际信息学奥赛中获得金牌,击败98%人类选手。该系统完全模拟人类比赛环境:断网状态、不调用外部知识库、5小时限时完成。基于通用推理模型自主解题,未针对比赛专门训练。相比去年铜牌成绩(49%分位),今年实现跨越式进步。近期该系统还在AtCoder总决赛和国际数学奥赛等顶级赛事中表现优异,展现强大推理能力。
OpenAI推出ChatGPT Study学习模式,为教育领域带来创新工具。该模式提供交互式提示、支架式回应等四大功能,帮助学生系统化理解解题思路,适用于数学、文学等多学科。功能已向所有用户开放,即将推出专用Edu版本。教育工作者认为这将改变传统教学模式,提升学习效率,让教师更专注于课程深度。AI技术在教育领域的应用展现出巨大潜力,未来或将成为师生的重要辅助工具。
AI初创公司Harmonic推出数学推理AI"亚里士多德",主打无幻觉精准解答。该应用通过开源语言Lean实现算法验证,在2025年国际奥数测试中获金牌表现。公司刚完成1亿美元B轮融资,估值达8.75亿美元,致力于打造"数学超智能"。未来将开放API并推出网页版,拓展商业应用场景。
GoMim是一款功能强大的AI数学解题器,提供免费、逐步的数学方程、微积分等解决方案。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
强大的AI数学解题器,提供准确答案和逐步解决方案。
通过扫描问题提供数学解题步骤和解释。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Moonshot
Bytedance
$0.8
32
launch
ThinkPRM-7B是一款基于R1-Distill-Qwen-7B架构的生成式过程奖励模型,专门用于对推理过程进行逐步验证。它通过生成明确的验证思维链来评估数学解题、代码生成等推理任务的每一步正确性,具有数据效率高、可解释性强的特点。
Vijayendra
DeepThinkerv2是一个具备深度数学推理能力的大语言模型,通过递归思考模式和多重验证机制提升解题准确性。
prithivMLmods
基于Qwen-1.5B微调的紧凑型多语言推理模型,擅长数学解题、逻辑推理、代码生成和通用任务
Omartificial-Intelligence-Space
基于Qwen2.5-3B微调的阿拉伯语推理专用语言模型,专注于提升阿拉伯语语言模型在逻辑推理和数学解题方面的能力。