科大讯飞发布“星火X2”大模型,基于全国产算力训练,在算法与工程上实现突破。该模型在数学、逻辑推理、语言理解及智能体等核心能力上对标国际顶尖水平,并聚焦行业应用需求,推动国产大模型发展进入新阶段。
阿里发布旗舰推理模型Qwen3-Max-Thinking,参数量超万亿,预训练数据达36T Tokens。该模型通过强化学习训练,在事实知识、数学推理等方面表现优异,已接入千问PC端和网页端,App即将支持。用户可一键切换体验更强推理能力。
我国科研团队在《自然·机器智能》发表重大突破,推出全球首个兼具“自主出题”与“自动解题”能力的通用人工智能系统“通矩模型”。这标志着AI在数学推理领域从被动模仿转向主动创造,实现了从“解题机器”到“数学创作者”的范式转变。
Liquid AI推出LFM2.5-1.2B-Thinking推理模型,拥有12亿参数,专为复杂逻辑推理和数学任务设计。该模型在端侧部署上实现突破,仅占用约900MB内存,可在现代手机上完全离线运行,将两年前需数据中心支持的推理能力成功迁移至个人移动设备。
一个基于强化学习优化的大型语言模型,专注于数学问题解决能力的提升。
展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。
Eurus-2-7B-SFT是一个经过数学能力优化的大型语言模型,专注于推理和问题解决.
开源代码语言模型,提升编程和数学推理能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
Google
$0.7
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$3.9
$15.2
64
Bytedance
$0.8
EssentialAI
Rnj-1-instruct 是由 Essential AI 从头开始训练的 80 亿参数开放权重密集模型,针对代码、STEM 领域、智能体能力和工具调用进行了优化。它在多种编程语言中表现出色,同时在数学和科学领域也展现出强大实力,能力与最先进的开放权重模型相当。
allenai
Olmo-3-7B-Think-DPO是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现出色。该模型经过监督微调、直接偏好优化和基于可验证奖励的强化学习等多阶段训练,专为研究和教育用途设计。
Olmo 3 7B RL-Zero Math是Allen AI开发的专为数学推理任务优化的70亿参数语言模型,采用RL-Zero强化学习方法在数学数据集上进行训练,能有效提升数学推理能力。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Olmo-3-32B-Think-DPO是Allen AI开发的32B参数语言模型,采用直接偏好优化(DPO)训练,具备长链式思维推理能力,在数学、编码等复杂推理任务上表现优异。
Rnj-1 是由 Essential AI 从头训练的一系列 80 亿参数、开放权重的密集模型。该模型针对代码和 STEM 领域进行了优化,在编程、数学推理、智能体任务和工具调用方面表现出色,能力与最先进的开放权重模型相当。
Nanbeige
Nanbeige4-3B-Thinking是第四代Nanbeige大语言模型家族中的30亿参数推理模型,通过提升数据质量和训练方法实现了先进的推理能力。该模型在数学、科学、创意写作、工具使用等多个领域表现出色,支持多阶段课程学习和强化学习训练。
Olmo-3-7B-Think-SFT是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现优异。该模型基于Dolma 3数据集预训练,并在Dolci数据集上进行了后续训练。
Thrillcrazyer
Qwen-1.5B_THIP是基于DeepSeek-R1-Distill-Qwen-1.5B在DeepMath-103k数学数据集上使用TRL框架进行GRPO方法微调的数学推理模型。该模型专门针对数学问题解决进行了优化,具备较强的数学推理能力。
Jackrong
本项目通过创新的两阶段训练流程,将GPT的推理能力蒸馏到Llama-3.1-8B模型中。首先通过监督微调进行知识蒸馏和格式对齐,然后利用强化学习激励模型自主探索和优化推理策略,专注于数学推理领域的能力突破。
suayptalha
Sungur-14B 是一个专门针对土耳其语的大语言模型,基于 Qwen/Qwen3-14B 派生而来。该模型使用包含 41.1k 个土耳其语样本的数据集进行微调,涵盖数学、医学和常识等领域的推理对话,旨在增强土耳其语的本土推理能力。
foreverlasting1202
QuestA是一个通过问题增强方法提升大语言模型推理能力的创新框架。它在强化学习训练过程中融入部分解决方案,显著提升了模型在数学推理等复杂任务上的表现,特别是在小参数模型上实现了最优结果。
prithivMLmods
Leporis-Qwen3-Radiation-1.7B是一个专注于推理的模型,基于Qwen进行微调,用于精确推理和优化标记概率。该模型增强了跨数学和通用推理的多语言平衡生成能力,专长于事件驱动逻辑、结构化分析和精确的概率建模。
palmyra-mini系列模型在复杂推理和数学问题解决领域展现出卓越能力,尤其在需要深入理解和多步骤思考的基准测试中表现出色。该模型擅长解决小学水平的数学问题,在gsm8k基准测试中取得0.818的高分,在MATH500基准测试中同样获得0.818分数,在AMC23基准测试中获得0.6的稳健分数。
facebook
MobileLLM-R1是Meta推出的高效推理模型系列,专注于解决数学、编程和科学问题。该模型提供140M、360M和950M三个规模版本,具有出色的推理能力和可复现性。
inclusionAI
Ring-mini-2.0是基于Ling 2.0架构深度优化的高性能推理型MoE模型,仅有160亿总参数和14亿激活参数,却实现了与100亿规模以下密集模型相当的综合推理能力。在逻辑推理、代码生成和数学任务方面表现出色,支持12.8万长上下文处理和每秒300+令牌的高速生成。
google
VaultGemma是谷歌推出的基于差分隐私技术预训练的轻量级语言模型,具有强大的隐私保护能力。它采用差分隐私随机梯度下降(DP-SGD)进行预训练,为训练数据提供数学隐私保证,参数少于10亿,适用于多种自然语言处理任务。
cpatonn
Hermes 4 14B是由Nous Research基于Qwen 3 14B开发的前沿混合模式推理模型,在数学、代码、STEM、逻辑、创造力和格式忠实输出等方面表现出色,具有显式思考过程和工具调用能力。
ertghiu256
这是一个基于Qwen3-4B架构的融合模型,通过TIES方法融合了多个Qwen3微调模型,特别强化了推理、代码和数学能力,支持多种推理接口运行。
kurakurai
Luth-LFM2-700M 是基于 Liquid AI 的 LFM2-700M 模型进行法语微调的版本。该模型在 Luth-SFT 数据集上训练,显著提升了法语指令遵循、数学和常识推理能力,同时保持了原有的英语能力。
基于MCP协议和SymPy库的数学计算服务,提供强大的符号计算能力
一个提供随机算法和概率决策能力的MCP服务器,通过高级数学模型扩展顺序思维,帮助AI助手打破局部思维模式,进行更优的决策规划。
基于MCP协议和SymPy库的数学计算服务,提供强大的符号计算能力,包括基础运算、代数运算、微积分、方程求解、矩阵运算等功能。
MCP推理服务器为Claude Desktop提供系统化推理能力,支持束搜索和蒙特卡洛树搜索两种策略,适用于数学、逻辑等复杂问题求解。
一个无需本地部署的MCP服务器,专为处理数学计算而设计,通过简单配置即可为大型语言模型提供永久准确的数学计算能力。
这是一个为Claude提供高级数学计算能力的MCP服务器,包含符号计算、统计分析和矩阵运算等功能。
该项目展示了如何在Cloudflare Workers上部署远程MCP服务器,并实现OAuth登录功能。支持本地开发调试,可通过MCP Inspector工具或Claude桌面客户端连接,提供数学计算等工具调用能力,最终可部署至Cloudflare云端。
该项目展示了如何在Cloudflare Workers上部署远程MCP服务器,并实现OAuth登录功能。支持本地开发调试,可通过MCP Inspector或Claude桌面客户端连接,提供数学工具调用等能力。
该项目展示了如何在Cloudflare Workers上部署远程MCP服务器,并实现OAuth登录功能。支持本地开发调试,可通过MCP Inspector或Claude桌面应用连接,提供数学计算等工具调用能力。
该项目展示了如何在Cloudflare Workers上部署远程MCP服务器,并实现OAuth登录功能。支持本地开发调试,可通过MCP Inspector工具或Claude桌面客户端连接,提供数学计算等工具调用能力。
该项目展示了如何在Cloudflare Workers上部署远程MCP服务器,并实现OAuth登录功能。支持本地开发调试,可通过MCP检查器或Claude桌面客户端连接,提供数学工具调用等能力,最终可部署至Cloudflare云端。
该项目展示了如何在Cloudflare Workers上部署远程MCP服务器,并实现OAuth登录功能。支持本地开发调试,可通过MCP Inspector或Claude桌面客户端连接,提供数学工具等能力。