顶尖机构联合研究显示,AI视觉推理能力仍远落后于人类儿童。即便是领先的Gemini 3 Pro Preview,其表现仅略胜三岁幼儿,与六岁儿童认知水平仍有差距。
当AI巨头聚焦大模型时,一场算力效率革命已悄然开启。顶尖开源推理引擎vLLM团队宣布成立AI基础设施公司Inferact,旨在为AI推理领域建立新秩序。这不仅是技术跃迁,更是AI迈向实用化的重要一步,已引发资本市场高度关注。
AI开源框架vLLM核心团队成立初创公司Inferact,以80亿美元投前估值完成1.5亿美元种子轮融资,由a16z和光速创投领投,标志着AI行业重心正从模型训练转向推理商业化。
曦望(Sunrise)作为AI推理专用GPU芯片公司,在成立一年内完成近30亿元融资,创国内AI芯片初创企业早期融资纪录。此轮融资汇聚产业资本、头部VC/PE及国家级基金,显示市场对其技术及国产替代前景的认可。投资方包括三一集团旗下华胥基金等,凸显高端制造与AI芯片的战略协同。
Black Forest Labs推出,亚秒级推理、统一编辑、照片级画质AI图像生成器。
Nano Banana Pro是前沿AI图像生成引擎,4K画质、角色一致,推理生成强大。
Google DeepMind旗舰多模态AI,1M上下文,具备博士级推理与高级编码能力
Google基于Gemini 3 Pro的AI图像编辑器,推理强,生成编辑能力出色
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
Google
$0.7
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$1.2
$3.6
4
bartowski
这是由Mistral AI开发的大型语言模型Mistral-Large-3-675B-Instruct-2512的GGUF量化版本。原始模型拥有6750亿参数,专为指令遵循任务设计。本项目使用llama.cpp工具,结合imatrix校准数据集,生成了从Q8_0到IQ1_S共20多种不同精度的量化模型文件,旨在平衡模型性能、推理速度与存储/内存占用,使其能在更广泛的硬件上运行。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型家族,包含7B和32B的指令和思维变体。该模型在长链式思维方面表现出色,能显著提升数学和编码等推理任务的性能。所有代码、检查点和训练细节都将公开,推动语言模型科学发展。
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
Olmo 3是由Allen Institute for AI开发的一系列语言模型,包含7B和32B两种规模,具有指令式和思考式两种变体。该模型在长链式思维方面表现出色,能有效提升数学和编码等推理任务的性能。采用多阶段训练方式,包括有监督微调、直接偏好优化和可验证奖励的强化学习。
Olmo-3-7B-Think-DPO是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现出色。该模型经过监督微调、直接偏好优化和基于可验证奖励的强化学习等多阶段训练,专为研究和教育用途设计。
Olmo 3是由Allen Institute for AI (Ai2)开发的一系列语言模型,包含7B和32B两种规格,有Instruct和Think两种变体。该模型基于Transformer架构,具有长链思维能力,可有效提升数学和编码等推理任务的表现。
Olmo 3是由Allen Institute for AI开发的开源语言模型系列,包含7B和32B两种规格,分为指令(Instruct)和思考(Think)两种变体。该模型具有出色的长链思维能力,能够显著提升数学和编码等推理任务的表现。
Olmo 3 7B RL-Zero Math是Allen AI开发的专为数学推理任务优化的70亿参数语言模型,采用RL-Zero强化学习方法在数学数据集上进行训练,能有效提升数学推理能力。
Olmo 3是由Allen Institute for AI开发的全新语言模型家族,包含7B和32B两种规模,有指令(Instruct)和思维(Think)两种变体。该模型采用长链式思维提升数学和编码等推理任务表现,旨在推动语言模型科学发展。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Olmo-3-32B-Think-DPO是Allen AI开发的32B参数语言模型,采用直接偏好优化(DPO)训练,具备长链式思维推理能力,在数学、编码等复杂推理任务上表现优异。
EssentialAI
Rnj-1 是由 Essential AI 从头训练的一系列 80 亿参数、开放权重的密集模型。该模型针对代码和 STEM 领域进行了优化,在编程、数学推理、智能体任务和工具调用方面表现出色,能力与最先进的开放权重模型相当。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
Mungert
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的AI模型自动分析查询复杂度并选择最佳模型处理请求,支持搜索、推理和深度研究三种工具。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的AI模型提供自动查询复杂度检测和最优模型路由功能,支持搜索、推理和深度研究三种工具。
结合DeepSeek推理与Claude生成的两阶段AI对话服务
Perplexity MCP Server是一个用Go编写的中间件服务器,为AI助手(如Claude和Cursor)提供无缝访问Perplexity API的能力,包括实时搜索和复杂推理功能。
Think MCP是一个实现MCP服务器的项目,提供'think'工具以支持AI代理在复杂任务中进行结构化推理,灵感来自Anthropic的研究。该工具通过记录思考过程帮助AI处理信息、回溯或遵守策略,适用于工具输出分析、策略密集环境和顺序决策场景。
一个基于量子场计算模型的Claude多实例协同推理服务器,通过场一致性优化实现增强型AI推理能力。
GemForge是将Google的Gemini AI与MCP生态系统连接的企业级工具,提供实时网络访问、高级推理、代码分析和多文件处理等功能,支持60多种文件格式,具备智能模型选择和强大的错误处理机制。
Thoughtbox是一个AI思维辅助工具,通过分步思考、修订和分支推理等功能,帮助用户分解复杂问题并优化解决方案
一个增强AI模型推理能力的MCP服务器,通过结构化检索和动态思维链提升问题解决能力。
Smart-Thinking是一个先进的MCP服务器,提供多维、自适应且可自验证的AI推理框架,采用基于图形的架构实现复杂思维连接,支持跨平台运行并与多种MCP客户端兼容。
一个为Cursor AI中的Claude提供高级推理能力的MCP服务器,包含多种推理方法如蒙特卡洛树搜索、束搜索和Transformer混合推理等。
一个由Claude构建的DeepSeek推理服务项目
该项目是一个基于Model Context Protocol (MCP)的stdio服务器,用于将提示转发至OpenAI的ChatGPT (GPT-4o),支持高级摘要、分析和推理功能,适用于LangGraph框架的助手集成。
基于Anthropic研究的MCP服务器,为Claude AI提供'think'工具能力,增强复杂推理任务处理。
GemForge是将谷歌Gemini AI与MCP生态系统连接的企业级工具,提供实时网络访问、高级推理、代码分析和多文件处理等功能,支持60多种文件格式,具备智能模型选择和强大的错误处理机制。
MCP Thought Server是一个为AI代理提供高级思维工具的服务,通过模型上下文协议(MCP)增强推理、规划和迭代优化能力。它包含结构化思维、迭代草稿和集成思维等工具,支持SQLite持久化和高级置信度评分系统,可配置环境变量以适应不同需求。
Deepseek Thinker MCP Server是一个提供Deepseek推理内容的MCP服务,支持OpenAI API和本地Ollama两种模式,可集成到AI客户端中。
一个基于Replicate API的FastMCP服务器实现,专注于提供资源化的AI模型推理访问,特别擅长图像生成功能。
基于Gemini API的高级推理与反思工具,支持多模型集成与自定义配置
Smart-Thinking是一个先进的MCP服务器,提供多维、自适应且可自我验证的AI推理框架。