印度支付巨頭Paytm與美國硬件公司Groq合作,將利用GroqCloud雲端服務提升AI模型性能,優化交易處理、風險評估、欺詐檢測和消費者互動。GroqCloud基於自主研發的語言處理單元,專注於AI推理,旨在增強Paytm平臺的智能化水平。
微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
螞蟻數科在香港金融科技節推出“多語種多模態大模型訓練框架”,旨在解決大模型在多語言環境的應用瓶頸。傳統英文大模型在小語種中易出現語言錯亂和推理混亂,限制全球化發展。該框架通過優化多語種處理能力,提升模型在多樣化語言環境下的表現,推動AI技術更廣泛高效地服務於全球各行業。
在美的“遠見者大會”上,徐翼介紹了新一代AI交互系統Home AI。該系統通過“連接—感知—推理—執行”閉環,實現智能聯動家電設備,並基於用戶習慣自動優化,提升人機交互體驗。
Google基於Gemini 3 Pro的AI圖像編輯器,推理強,生成編輯能力出色
全球首個推理AI視頻模型Ray3,可從文本提示創建4K HDR視頻
全球首個帶推理智能與16位HDR輸出的AI視頻模型,創作高效專業
Ray 3 AI將文本轉化為4K HDR視頻,具備智能推理和多種特色功能。
deepseek
$3.6
輸入tokens/百萬
$15.48
輸出tokens/百萬
128k
上下文長度
google
$2.16
$18
1M
anthropic
$108
$540
200k
chatglm
$0.43
$1.01
131.1k
minimax
-
moonshotai
$4.1
$16.56
$21.6
upstage
64k
2M
reka-ai
65.5k
$0.72
$2.88
智谱ai
$4.5
$22.5
mistral
$0.5
openai
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的空間和視頻動態理解能力。該模型採用2B參數規模,支持指令交互,適用於多模態AI應用。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微調版本,由 TheStage AI 針對多平臺即時、低延遲和低功耗語音轉文本推理進行優化。支持流式轉錄、單詞時間戳和可擴展性能,適用於即時字幕、會議和設備端語音界面等場景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
Mungert
PokeeResearch-7B是由Pokee AI開發的70億參數深度研究代理模型,結合了AI反饋強化學習(RLAIF)和強大的推理框架,能夠在工具增強的大語言模型中實現可靠、對齊和可擴展的研究級推理,適用於複雜的多步驟研究工作流程。
LiquidAI
LFM2-VL-3B是Liquid AI開發的多模態視覺語言模型,基於LFM2骨幹架構構建,具備強大的視覺理解和推理能力,特別在細粒度感知任務上表現出色。該模型能夠高效處理文本和圖像輸入,支持高達512×512分辨率的原生圖像處理。
PokeeAI
PokeeResearch-7B是由Pokee AI開發的70億參數深度研究智能體,結合基於AI反饋的強化學習(RLAIF)與推理框架,能夠執行復雜的多步驟研究工作流程,包括自我修正、驗證和綜合分析。
bullpoint
GLM-4.6-AWQ是對智譜AI的GLM-4.6(357B MoE)進行高性能AWQ量化的模型,專為vLLM推理進行了優化,能有效提升生產部署的吞吐量。該模型採用4位量化技術,在保持高精度的同時顯著減少顯存佔用。
GLM-4.6是智譜AI推出的新一代文本生成模型,相比GLM-4.5在多個方面有顯著改進,包括更長的上下文窗口、更優的編碼性能和更強的推理能力。該模型在多個公開基準測試中表現出色,與國內外領先模型相比具有競爭優勢。
GLM-4.6是智譜AI開發的新一代大語言模型,相比GLM-4.5在上下文處理、編碼能力和推理性能方面有顯著提升。該模型支持200K上下文長度,在多個公開基準測試中表現出色,特別在代碼生成、推理和代理任務方面具有競爭優勢。
zai-org
GLM-4.6是智譜AI推出的新一代文本生成模型,相比GLM-4.5在上下文處理、編碼性能、推理能力等方面實現顯著提升,支持200K上下文長度,具備更強的智能體能力和精緻的寫作能力。
GLM-4.6-FP8是智譜AI推出的新一代文本生成模型,相比GLM-4.5在多個關鍵方面有顯著改進。該模型具有更長的上下文窗口、卓越的編碼性能、高級推理能力和更強大的智能體功能,能夠處理更復雜的任務。
geoffmunn
這是Qwen/Qwen3-0.6B語言模型的GGUF量化版本,一個擁有6億參數的緊湊大語言模型,專為在低資源設備上進行超快速推理而設計。支持llama.cpp、LM Studio、OpenWebUI和GPT4All等框架,可在任何地方離線使用私有AI。
nvidia
NVIDIA Qwen3-32B FP4模型是阿里雲Qwen3-32B模型的量化版本,使用優化的Transformer架構,通過將權重和激活量化為FP4數據類型實現高效推理。該模型支持商業和非商業用途,適用於各種AI應用場景。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,採用FP4數據類型進行優化,通過TensorRT-LLM進行高效推理。該模型專為NVIDIA GPU加速系統設計,適用於AI Agent系統、聊天機器人、RAG系統等多種AI應用場景,支持全球範圍內的商業和非商業使用。
anikifoss
這是對Moonshot AI的Kimi-K2-Instruct-0905模型的高質量量化版本,採用HQ4_K量化方法,專門優化了推理性能,支持75000上下文長度,適用於文本生成任務。
samunder12
基於Llama 3.1 8B Instruct微調的GGUF量化模型,具有強勢、果斷且具有挑釁性的AI人設,專為角色扮演和創意寫作場景優化,支持在CPU或GPU上進行本地推理。
Jackmin108
GLM-4.5-Air是智譜AI推出的適用於智能體的基礎模型,採用緊湊設計,統一了推理、編碼和智能體能力,能滿足智能體應用的複雜需求。該模型參數量適中且效率優越,已開源多種版本,可用於商業和二次開發。
kurakurai
Luth-LFM2-700M 是基於 Liquid AI 的 LFM2-700M 模型進行法語微調的版本。該模型在 Luth-SFT 數據集上訓練,顯著提升了法語指令遵循、數學和常識推理能力,同時保持了原有的英語能力。
Luth-LFM2-350M 是與 Liquid AI 合作開發的法語優化語言模型,基於 LFM2-350M 在 Luth-SFT 數據集上進行法語微調。該模型在保持英語能力的同時,顯著提升了法語指令遵循、數學推理和常識問答能力。
mlx-community
基於智譜AI GLM-4.5-Air模型轉換的3位深度量化權重(Deep Weight Quantization)版本,專為MLX框架優化,在保持較高性能的同時顯著減少模型大小和推理資源需求
Perplexity MCP Server是一個智能研究助手,利用Perplexity的AI模型自動分析查詢複雜度並選擇最佳模型處理請求,支持搜索、推理和深度研究三種工具。
Perplexity MCP Server是一個智能研究助手,利用Perplexity的AI模型提供自動查詢複雜度檢測和最優模型路由功能,支持搜索、推理和深度研究三種工具。
結合DeepSeek推理與Claude生成的兩階段AI對話服務
基於Anthropic研究的MCP服務器,為Claude AI提供'think'工具能力,增強複雜推理任務處理。
一個為Cursor AI中的Claude提供高級推理能力的MCP服務器,包含多種推理方法如蒙特卡洛樹搜索、束搜索和Transformer混合推理等。
一個基於Replicate API的FastMCP服務器實現,專注於提供資源化的AI模型推理訪問,特別擅長圖像生成功能。
MCP Thought Server是一個為AI代理提供高級思維工具的服務,通過模型上下文協議(MCP)增強推理、規劃和迭代優化能力。它包含結構化思維、迭代草稿和集成思維等工具,支持SQLite持久化和高級置信度評分系統,可配置環境變量以適應不同需求。
MCP雙循環推理器是一個為自主AI代理設計的元認知增強工具,通過雙循環框架(哨兵監控和裁決器管理)實現異常檢測和經驗學習,提升代理的自我意識和可靠性。
Perplexity MCP服務器是一個Go編寫的中間件,為AI助手提供即時搜索和複雜推理能力
一個為Cursor AI中的Claude提供高級推理能力的MCP服務器,包含多種推理方法和自動迭代功能。
基於Gemini API的高級推理與反思工具,支持多模型集成與自定義配置
Think MCP是一個實現MCP服務器的項目,提供'think'工具以支持AI代理在複雜任務中進行結構化推理,靈感來自Anthropic的研究。該工具通過記錄思考過程幫助AI處理信息、回溯或遵守策略,適用於工具輸出分析、策略密集環境和順序決策場景。
MindBridge是一個AI模型路由服務器,支持多LLM提供商,實現智能模型調度與協作,適用於複雜推理任務和多模型工作流。
Smart-Thinking是一個先進的MCP服務器,提供多維、自適應且可自驗證的AI推理框架,採用基於圖形的架構實現複雜思維連接,支持跨平臺運行並與多種MCP客戶端兼容。
為Claude AI提供結構化思考工具的服務
該項目是一個基於Model Context Protocol (MCP)的stdio服務器,用於將提示轉發至OpenAI的ChatGPT (GPT-4o),支持高級摘要、分析和推理功能,適用於LangGraph框架的助手集成。
Smart-Thinking是一個先進的MCP服務器,提供多維、自適應且可自我驗證的AI推理框架。
Adaptive Graph of Thoughts是一個基於Neo4j圖數據庫的智能科學推理框架,通過圖結構實現複雜的科學推理任務,支持與Claude Desktop等AI應用集成。
基於MCP協議的深度推理服務器,為客戶端提供AI深度推理服務
Archon是一個自主構建和優化AI代理的智能系統,通過迭代開發展示現代AI的關鍵原則,包括代理推理、領域知識整合和可擴展架構。當前版本V4提供了全面的Streamlit界面,支持Docker部署,並與MCP服務集成以實現AI IDE的無縫對接。