英偉達CEO黃仁勳在達沃斯論壇上表示,過去一年AI模型層取得三大突破:一是代理式AI的崛起,模型具備複雜推理與計劃能力;二是開源模型生態繁榮,如DeepSeek等降低了技術門檻;三是多模態AI的快速發展,推動AI應用更廣泛落地。
Liquid AI推出LFM2.5-1.2B-Thinking推理模型,擁有12億參數,專爲複雜邏輯推理和數學任務設計。該模型在端側部署上實現突破,僅佔用約900MB內存,可在現代手機上完全離線運行,將兩年前需數據中心支持的推理能力成功遷移至個人移動設備。
智譜AI開源最新“混合思考”模型GLM-4.4-Flash,採用30B-A3B MoE架構,總參數量300億,實際激活約30億參數。該模型在保持輕量化部署優勢的同時,憑藉卓越推理與編碼能力,登頂同類規格模型性能榜首,成爲30B級別中的“全能王者”。
美團LongCat團隊開源了最新AI模型LongCat-Flash-Thinking-2601,該模型在智能體搜索、工具調用及推理等多項核心評測中達到開源模型最高水平。其核心優勢在於卓越的工具調用能力,能有效處理依賴工具的複雜任務,顯著降低真實場景中對新工具的適應成本。
Google DeepMind旗艦多模態AI,1M上下文,具備博士級推理與高級編碼能力
Google基於Gemini 3 Pro的AI圖像編輯器,推理強,生成編輯能力出色
開放AI的GPT-OSS-120B和GPT-OSS-20B提供強大的推理能力,開發人員友好的功能,並採用Apache 2.0許可證,實現人工智能的民主化訪問。
GPT 5是下一代AI模型,提供卓越的編碼、數學和推理性能。
Xai
$1.4
輸入tokens/百萬
$3.5
輸出tokens/百萬
2k
上下文長度
Openai
$7.7
$30.8
200
-
Anthropic
$105
$525
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
$3.9
$15.2
64
Bytedance
$0.8
Moonshot
nightmedia
這是一個實驗性的量化大語言模型,採用Deckard(qx)量化方法,嵌入層為3位量化。該模型通過範數保持雙投影消除(NPBA)技術重構,不僅移除了安全限制機制,還增強了模型的認知深度和推理能力。
squ11z1
Hypnos i1-8B 是基於 Nous Hermes 3(Llama 3.1 8B)的專業推理模型,專注於複雜邏輯、思維鏈推理和數學問題求解。該模型在混合量子-經典機器學習領域進行了獨特探索,通過引入量子噪聲注入提升了模型的創造力和推理能力。
MaziyarPanahi
本項目提供了Qwen3-4B-Thinking-2507模型的GGUF格式文件,這是一個具有思維鏈推理能力的4B參數大語言模型,支持多種量化版本,便於在各種硬件上部署運行。
Nanbeige
楠米色4-3B-思維-2511是楠米色系列的最新增強版本,通過先進的蒸餾技術和強化學習優化,在緊湊的3B參數規模下實現了強大的推理能力。該模型在Arena-Hard-V2和BFCL-V4等基準測試中,在參數小於32B的模型中取得了最先進(SOTA)成果。
allenai
Olmo 3是由Allen Institute for AI開發的新一代語言模型系列,包含7B和32B兩種規模,有指令和思考兩種變體。該模型基於Dolma 3數據集進行預訓練,在Dolci數據集上進行後訓練,具備長鏈式思維能力,在數學和編碼等推理任務上表現優異。
kayte0342
ChronoEdit-14B是NVIDIA開發的一款具備時間推理能力的圖像編輯和世界模擬模型,擁有140億參數。它通過兩階段推理過程實現物理感知的圖像編輯和基於動作條件的世界模擬,從預訓練視頻生成模型中提煉先驗知識。
noctrex
這是對MiroThinker-v1.0-30B模型進行MXFP4_MOE imatrix量化的版本,基於mradermacher的imatrix實現。該量化模型保持了原模型的文本生成能力,同時通過量化技術提高了推理效率,適用於需要高效文本生成的各種應用場景。
OpenMMReasoner
OpenMMReasoner是一個完全透明的兩階段多模態推理方案,採用監督微調(SFT)和強化學習(RL)訓練。在SFT階段構建了874K樣本的冷啟動數據集,RL階段利用74K樣本進一步提升能力,在多模態推理基準測試中表現出色。
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款強大的跨具身視覺語言模型,在自動駕駛和具身AI任務中均展現出了卓越的性能。它是首個將這兩個關鍵領域相結合的開源視覺語言模型,顯著提升了在動態物理環境中的理解和推理能力。
Mungert
MiroThinker v1.0是一個開源研究智能體,通過模型級別的交互式擴展提升工具增強推理和信息搜索能力。該模型在多個基準測試中表現出色,支持長上下文和深度多步分析。
dogeater1612
這是一個基於Google Gemma 2 9B模型微調的荷蘭語患者模擬模型,專門為醫療教育場景設計。模型始終以固定的JSON結構響應,模擬一位剛做完手術正在康復的患者'瑪麗亞',支持護理專業學生在安全環境中鍛鍊溝通和臨床推理能力。
Olmo-3-7B-Think-DPO是Allen Institute for AI開發的7B參數語言模型,具有長鏈式思考能力,在數學和編碼等推理任務中表現出色。該模型經過監督微調、直接偏好優化和基於可驗證獎勵的強化學習等多階段訓練,專為研究和教育用途設計。
Olmo 3是由Allen Institute for AI (Ai2)開發的一系列語言模型,包含7B和32B兩種規格,有Instruct和Think兩種變體。該模型基於Transformer架構,具有長鏈思維能力,可有效提升數學和編碼等推理任務的表現。
Olmo 3是由Allen Institute for AI開發的開源語言模型系列,包含7B和32B兩種規格,分為指令(Instruct)和思考(Think)兩種變體。該模型具有出色的長鏈思維能力,能夠顯著提升數學和編碼等推理任務的表現。
Olmo 3 7B RL-Zero Math是Allen AI開發的專為數學推理任務優化的70億參數語言模型,採用RL-Zero強化學習方法在數學數據集上進行訓練,能有效提升數學推理能力。
Olmo 3 7B RL-Zero Mix是Allen AI開發的7B參數規模的語言模型,屬於Olmo 3系列。該模型在Dolma 3數據集上進行預訓練,在Dolci數據集上進行後訓練,並通過強化學習優化數學、編碼和推理能力。
Guilherme34
Qwen3-32B是Qwen系列最新一代的大語言模型,具備強大的推理、指令遵循、智能體交互和多語言處理能力。它支持100多種語言和方言,能在思維模式和非思維模式間無縫切換,為用戶提供自然流暢的對話體驗。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基於quanhaol/Wan2.2-TI2V-5B-Turbo基礎模型轉換而來的圖像轉視頻模型,經過優化可在4GB GPU上運行,具有出色的通用性和高效推理能力。
TeichAI
這是一個基於Qwen3 30B A3B模型,在Claude Sonnet 4.5高推理難度數據集上訓練的蒸餾模型。該模型專門針對複雜推理任務進行優化,在編碼和科學領域表現出色,具備較強的邏輯推理能力。
Olmo-3-32B-Think-DPO是Allen AI開發的32B參數語言模型,採用直接偏好優化(DPO)訓練,具備長鏈式思維推理能力,在數學、編碼等複雜推理任務上表現優異。
MCP推理器是為Claude Desktop設計的增強推理能力的工具,提供波束搜索和蒙特卡洛樹搜索兩種算法,並新增實驗性策略模擬層以優化複雜問題解決。
MCP Reasoner是為Claude Desktop設計的推理增強工具,提供Beam Search和MCTS兩種搜索策略,通過實驗性算法提升複雜問題解決能力。
基於Anthropic研究的MCP服務器,為Claude AI提供'think'工具能力,增強複雜推理任務處理。
通過集成DeepSeek R1的推理引擎增強Claude的複雜任務處理能力
MCP代理工具適配器項目通過MCP協議實現模塊化工具調用,支持Google ADK和LangGraph兩種代理框架,提供動態推理和工具規劃能力。
一個為Cursor AI中的Claude提供高級推理能力的MCP服務器,包含多種推理方法如蒙特卡洛樹搜索、束搜索和Transformer混合推理等。
MCP Thought Server是一個為AI代理提供高級思維工具的服務,通過模型上下文協議(MCP)增強推理、規劃和迭代優化能力。它包含結構化思維、迭代草稿和集成思維等工具,支持SQLite持久化和高級置信度評分系統,可配置環境變量以適應不同需求。
Perplexity MCP服務器是一個Go編寫的中間件,為AI助手提供即時搜索和複雜推理能力
一個為Cursor AI中的Claude提供高級推理能力的MCP服務器,包含多種推理方法和自動迭代功能。
一個連接本地LLM與MCP服務器的TypeScript橋樑項目,提供Web界面使開源模型能使用類似Claude的工具能力,支持文件系統、網絡搜索和複雜推理等功能。
該項目通過集成DeepSeek R1的推理引擎增強Claude的複雜任務處理能力,提供多步驟精確推理支持。
Thoughtful Claude是一個增強Claude推理能力的MCP服務器,通過集成DeepSeek R1的高級推理引擎,為Claude提供複雜多步推理任務處理能力。
MCP推理服務器為Claude Desktop提供系統化推理能力,支持束搜索和蒙特卡洛樹搜索兩種策略,適用於數學、邏輯等複雜問題求解。
一個基於量子場計算模型的Claude多實例協同推理服務器,通過場一致性優化實現增強型AI推理能力。
一個增強AI模型推理能力的MCP服務器,通過結構化檢索和動態思維鏈提升問題解決能力。
Perplexity MCP Server是一個用Go編寫的中間件服務器,為AI助手(如Claude和Cursor)提供無縫訪問Perplexity API的能力,包括即時搜索和複雜推理功能。
結合DeepSeek推理與Claude生成能力的MCP服務
官方實現的Anthropic'思考'工具MCP服務器,通過結構化思考顯著提升Claude的推理能力
MCP邏輯求解器是一個結合大型語言模型與形式化定理證明能力的強大推理系統,支持自然語言和一階邏輯輸入,通過Prover9/Mace4進行自動驗證,並提供結構化推理和解釋。
MCP Chain of Draft Prompt Tool是一個增強LLM推理能力的工具,通過將標準提示轉換為Chain of Draft或Chain of Thought格式,顯著提高推理質量並減少token使用。