谷歌DeepMind推出AI框架“AlphaProof Nexus”,通过四级智能体架构协同,在数学研究领域取得重大突破,成功解开两道悬而未决56年的埃尔德什难题。系统从基础模型与Lean编译器循环交互入手,逐步提升推理复杂度,展现了AI在形式化验证与数学推理中的强大潜力。
2026年5月20日,OpenAI的推理模型成功推翻数学大师保罗·Erdős于1946年提出的“单位距离猜想”,解决了离散几何领域近80年的核心难题。与以往不同,该成果获学术界广泛认可,标志着AI从“检索”到“原创”的关键突破。
OpenAI最新推理模型成功推翻数学家保罗·Erdős在1946年提出的单位距离猜想,首次依靠自身长链推理能力自主攻克数学核心开放难题。这一里程碑式突破经专家独立验证,标志着人工智能从检索式解答迈入原创性证明阶段。
我国科研团队在《自然·机器智能》发表重大突破,推出全球首个兼具“自主出题”与“自动解题”能力的通用人工智能系统“通矩模型”。这标志着AI在数学推理领域从被动模仿转向主动创造,实现了从“解题机器”到“数学创作者”的范式转变。
GPT 5是下一代AI模型,提供卓越的编码、数学和推理性能。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型家族,包含7B和32B的指令和思维变体。该模型在长链式思维方面表现出色,能显著提升数学和编码等推理任务的性能。所有代码、检查点和训练细节都将公开,推动语言模型科学发展。
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
Olmo 3是由Allen Institute for AI开发的一系列语言模型,包含7B和32B两种规模,具有指令式和思考式两种变体。该模型在长链式思维方面表现出色,能有效提升数学和编码等推理任务的性能。采用多阶段训练方式,包括有监督微调、直接偏好优化和可验证奖励的强化学习。
Olmo-3-7B-Think-DPO是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现出色。该模型经过监督微调、直接偏好优化和基于可验证奖励的强化学习等多阶段训练,专为研究和教育用途设计。
Olmo 3是由Allen Institute for AI (Ai2)开发的一系列语言模型,包含7B和32B两种规格,有Instruct和Think两种变体。该模型基于Transformer架构,具有长链思维能力,可有效提升数学和编码等推理任务的表现。
Olmo 3是由Allen Institute for AI开发的开源语言模型系列,包含7B和32B两种规格,分为指令(Instruct)和思考(Think)两种变体。该模型具有出色的长链思维能力,能够显著提升数学和编码等推理任务的表现。
Olmo 3 7B RL-Zero Math是Allen AI开发的专为数学推理任务优化的70亿参数语言模型,采用RL-Zero强化学习方法在数学数据集上进行训练,能有效提升数学推理能力。
Olmo 3是由Allen Institute for AI开发的全新语言模型家族,包含7B和32B两种规模,有指令(Instruct)和思维(Think)两种变体。该模型采用长链式思维提升数学和编码等推理任务表现,旨在推动语言模型科学发展。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Olmo-3-32B-Think-DPO是Allen AI开发的32B参数语言模型,采用直接偏好优化(DPO)训练,具备长链式思维推理能力,在数学、编码等复杂推理任务上表现优异。
EssentialAI
Rnj-1 是由 Essential AI 从头训练的一系列 80 亿参数、开放权重的密集模型。该模型针对代码和 STEM 领域进行了优化,在编程、数学推理、智能体任务和工具调用方面表现出色,能力与最先进的开放权重模型相当。
Olmo-3-7B-Think-SFT是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现优异。该模型基于Dolma 3数据集预训练,并在Dolci数据集上进行了后续训练。
kurakurai
Luth-LFM2-350M 是与 Liquid AI 合作开发的法语优化语言模型,基于 LFM2-350M 在 Luth-SFT 数据集上进行法语微调。该模型在保持英语能力的同时,显著提升了法语指令遵循、数学推理和常识问答能力。
nvidia
基于Qwen2.5-14B微调的数学推理模型,在AIMO-2 Kaggle竞赛中获得第一名
zai-org
GLM-4-Z1-9B-0414是智谱AI推出的新一代90亿参数开源大语言模型,具有强大的文本生成和推理能力。该模型在数学推理和通用任务方面表现出色,在资源受限场景下实现了效率与效果的出色平衡,支持友好的本地部署。
Mungert
EXAONE Deep是由LG AI Research开发的高效推理语言模型,参数规模2.4B,在数学和编程等推理任务中表现优异。
THUDM
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,具备多语言支持等先进特性。
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,支持多语言和多种高级特性,包括网页浏览、代码执行、自定义工具调用和长文本推理等功能。
scb10x
台风T1 3B是SCB 10X开发的新型开放推理模型系列的首款产品。该模型基于Llama 3.2架构,具备跨领域推理能力,在GPQA、MMLU Pro和AI数学奥林匹克等基准测试中表现优异,特别支持泰语推理过程生成。
GLM-4-9B-Chat是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,支持多轮对话、网页浏览、代码执行等先进特性,还支持多语言及长上下文推理。