英伟达CEO黄仁勋在达沃斯论坛上表示,过去一年AI模型层取得三大突破:一是代理式AI的崛起,模型具备复杂推理与计划能力;二是开源模型生态繁荣,如DeepSeek等降低了技术门槛;三是多模态AI的快速发展,推动AI应用更广泛落地。
Liquid AI推出LFM2.5-1.2B-Thinking推理模型,拥有12亿参数,专为复杂逻辑推理和数学任务设计。该模型在端侧部署上实现突破,仅占用约900MB内存,可在现代手机上完全离线运行,将两年前需数据中心支持的推理能力成功迁移至个人移动设备。
智谱AI开源最新“混合思考”模型GLM-4.4-Flash,采用30B-A3B MoE架构,总参数量300亿,实际激活约30亿参数。该模型在保持轻量化部署优势的同时,凭借卓越推理与编码能力,登顶同类规格模型性能榜首,成为30B级别中的“全能王者”。
美团LongCat团队开源了最新AI模型LongCat-Flash-Thinking-2601,该模型在智能体搜索、工具调用及推理等多项核心评测中达到开源模型最高水平。其核心优势在于卓越的工具调用能力,能有效处理依赖工具的复杂任务,显著降低真实场景中对新工具的适应成本。
Google DeepMind旗舰多模态AI,1M上下文,具备博士级推理与高级编码能力
Google基于Gemini 3 Pro的AI图像编辑器,推理强,生成编辑能力出色
开放AI的GPT-OSS-120B和GPT-OSS-20B提供强大的推理能力,开发人员友好的功能,并采用Apache 2.0许可证,实现人工智能的民主化访问。
GPT 5是下一代AI模型,提供卓越的编码、数学和推理性能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
Google
$0.7
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$3.9
$15.2
64
Bytedance
$0.8
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
ss-lab
本项目提供了一个基于微软Phi-3.5-mini-instruct模型进行微调的文本生成模型,已转换为GGUF格式,适用于llama.cpp推理框架。模型在philschmid/guanaco-sharegpt-style数据集上进行了微调,优化了指令遵循和对话能力,适用于资源受限环境下的高效文本生成任务。
TeichAI
本模型是基于Qwen3-4B-Thinking-2507基础模型,使用高推理难度的Gemini 3 Pro预览数据集进行蒸馏训练得到的模型。它专注于提升在编码和科学领域的复杂推理能力,通过特定数据集的训练,旨在将大型模型(如Gemini 3 Pro)的推理能力高效地迁移到较小规模的模型中。
nightmedia
这是一个实验性的量化大语言模型,采用Deckard(qx)量化方法,嵌入层为3位量化。该模型通过范数保持双投影消除(NPBA)技术重构,不仅移除了安全限制机制,还增强了模型的认知深度和推理能力。
squ11z1
Hypnos i1-8B 是基于 Nous Hermes 3(Llama 3.1 8B)的专业推理模型,专注于复杂逻辑、思维链推理和数学问题求解。该模型在混合量子-经典机器学习领域进行了独特探索,通过引入量子噪声注入提升了模型的创造力和推理能力。
MaziyarPanahi
本项目提供了Qwen3-4B-Thinking-2507模型的GGUF格式文件,这是一个具有思维链推理能力的4B参数大语言模型,支持多种量化版本,便于在各种硬件上部署运行。
Nanbeige
楠米色4-3B-思维-2511是楠米色系列的最新增强版本,通过先进的蒸馏技术和强化学习优化,在紧凑的3B参数规模下实现了强大的推理能力。该模型在Arena-Hard-V2和BFCL-V4等基准测试中,在参数小于32B的模型中取得了最先进(SOTA)成果。
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
noctrex
这是对MiroThinker-v1.0-30B模型进行MXFP4_MOE imatrix量化的版本,基于mradermacher的imatrix实现。该量化模型保持了原模型的文本生成能力,同时通过量化技术提高了推理效率,适用于需要高效文本生成的各种应用场景。
OpenMMReasoner
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,采用监督微调(SFT)和强化学习(RL)训练。在SFT阶段构建了874K样本的冷启动数据集,RL阶段利用74K样本进一步提升能力,在多模态推理基准测试中表现出色。
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
Mungert
MiroThinker v1.0是一个开源研究智能体,通过模型级别的交互式扩展提升工具增强推理和信息搜索能力。该模型在多个基准测试中表现出色,支持长上下文和深度多步分析。
dogeater1612
这是一个基于Google Gemma 2 9B模型微调的荷兰语患者模拟模型,专门为医疗教育场景设计。模型始终以固定的JSON结构响应,模拟一位刚做完手术正在康复的患者'玛丽亚',支持护理专业学生在安全环境中锻炼沟通和临床推理能力。
allenai
Olmo-3-7B-Think-DPO是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现出色。该模型经过监督微调、直接偏好优化和基于可验证奖励的强化学习等多阶段训练,专为研究和教育用途设计。
Olmo 3 7B RL-Zero Math是Allen AI开发的专为数学推理任务优化的70亿参数语言模型,采用RL-Zero强化学习方法在数学数据集上进行训练,能有效提升数学推理能力。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Guilherme34
Qwen3-32B是Qwen系列最新一代的大语言模型,具备强大的推理、指令遵循、智能体交互和多语言处理能力。它支持100多种语言和方言,能在思维模式和非思维模式间无缝切换,为用户提供自然流畅的对话体验。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
这是一个基于Qwen3 30B A3B模型,在Claude Sonnet 4.5高推理难度数据集上训练的蒸馏模型。该模型专门针对复杂推理任务进行优化,在编码和科学领域表现出色,具备较强的逻辑推理能力。
Olmo-3-32B-Think-DPO是Allen AI开发的32B参数语言模型,采用直接偏好优化(DPO)训练,具备长链式思维推理能力,在数学、编码等复杂推理任务上表现优异。
MCP Reasoner是为Claude Desktop设计的推理增强工具,提供Beam Search和MCTS两种搜索策略,通过实验性算法提升复杂问题解决能力。
MCP推理器是为Claude Desktop设计的增强推理能力的工具,提供波束搜索和蒙特卡洛树搜索两种算法,并新增实验性策略模拟层以优化复杂问题解决。
一个基于量子场计算模型的Claude多实例协同推理服务器,通过场一致性优化实现增强型AI推理能力。
Perplexity MCP Server是一个用Go编写的中间件服务器,为AI助手(如Claude和Cursor)提供无缝访问Perplexity API的能力,包括实时搜索和复杂推理功能。
MCP逻辑求解器是一个结合大型语言模型与形式化定理证明能力的强大推理系统,支持自然语言和一阶逻辑输入,通过Prover9/Mace4进行自动验证,并提供结构化推理和解释。
通过集成DeepSeek R1的推理引擎增强Claude的复杂任务处理能力
一个增强AI模型推理能力的MCP服务器,通过结构化检索和动态思维链提升问题解决能力。
一个为Cursor AI中的Claude提供高级推理能力的MCP服务器,包含多种推理方法如蒙特卡洛树搜索、束搜索和Transformer混合推理等。
MCP Chain of Draft Prompt Tool是一个增强LLM推理能力的工具,通过将标准提示转换为Chain of Draft或Chain of Thought格式,显著提高推理质量并减少token使用。
基于Anthropic研究的MCP服务器,为Claude AI提供'think'工具能力,增强复杂推理任务处理。
MCP代理工具适配器项目通过MCP协议实现模块化工具调用,支持Google ADK和LangGraph两种代理框架,提供动态推理和工具规划能力。
该项目通过集成DeepSeek R1的推理引擎增强Claude的复杂任务处理能力,提供多步骤精确推理支持。
结合DeepSeek推理与Claude生成能力的MCP服务
MCP Thought Server是一个为AI代理提供高级思维工具的服务,通过模型上下文协议(MCP)增强推理、规划和迭代优化能力。它包含结构化思维、迭代草稿和集成思维等工具,支持SQLite持久化和高级置信度评分系统,可配置环境变量以适应不同需求。
MCP推理服务器为Claude Desktop提供系统化推理能力,支持束搜索和蒙特卡洛树搜索两种策略,适用于数学、逻辑等复杂问题求解。
官方实现的Anthropic'思考'工具MCP服务器,通过结构化思考显著提升Claude的推理能力
一个为Cursor AI中的Claude提供高级推理能力的MCP服务器,包含多种推理方法和自动迭代功能。
一个连接本地LLM与MCP服务器的TypeScript桥梁项目,提供Web界面使开源模型能使用类似Claude的工具能力,支持文件系统、网络搜索和复杂推理等功能。
Perplexity MCP服务器是一个Go编写的中间件,为AI助手提供实时搜索和复杂推理能力
Thoughtful Claude是一个增强Claude推理能力的MCP服务器,通过集成DeepSeek R1的高级推理引擎,为Claude提供复杂多步推理任务处理能力。