AMD聯合IBM與Zyphra推出全球首個全AMD硬件訓練的MoE模型ZAYA1,預訓練14萬億token,性能媲美Qwen3系列,數學推理接近專業版。採用128節點×8張MI300X顯卡集羣,算力達750PFLOPs。創新CCA注意力機制融合卷積與壓縮嵌入,數據採用課程學習從通用到專業領域過渡。後續將發佈優化版本。
谷歌發佈Gemini3,首次提供100萬tokens上下文窗口,原生支持文本、圖像、視頻與代碼多模態推理。Gemini3 Pro在GPQA測試獲91.9%準確率,LMArena以1501分超越GPT-5.1與Claude4.5登頂。採用Deep Think推理模式,通過“思維簽名”產品化推理鏈,在邏輯、事實與科學推理方面表現突出。
阿里通義千問推出Qwen3-Max模型,新增“深度思考”模式,通過強化推理鏈分析和多步驟問題拆解,顯著提升複雜任務處理效率。該模型參數量超1萬億,預訓練數據達36T tokens,是目前規模最大、能力最強的版本,在代碼和智能體能力方面均有明顯進步。
Kimi公司推出面向開發者的增值會員計劃“Kimi For Coding”,提供強大工具與服務,兼容Kimi CLI、Claude Code和RooCode等開發工具,助力提升開發效率和響應速度。會員每5小時可發起100至500次請求,系統響應速度最高達每秒100個Tokens。
chatglm
$4.03
輸入tokens/百萬
$7.99
輸出tokens/百萬
128k
上下文長度
google
$2.16
$18
1M
deepseek
$15.98
$2.02
$5.98
$0.72
$2.88
$0.5
-
bytedance
$3
$9
32k
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有顯著提升的大型語言模型,增強了長上下文理解能力,適用於高度複雜的推理任務。該模型具有305億參數,其中激活33億參數,支持262,144 tokens的長上下文處理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基於Qwen/Qwen3-30B-A3B-Thinking-2507基礎模型進行量化的高效推理模型。該模型在推理任務、通用能力和長上下文理解方面有顯著提升,專門針對高度複雜的推理任務進行了優化,支持262,144 tokens的長上下文處理。
Qwen3-30B-A3B-Thinking-2507是經過量化處理的大語言模型,具有增強的推理能力、通用能力和長上下文理解能力。該模型採用混合專家架構,在邏輯推理、數學、科學、編碼等複雜任務上表現出色,支持262,144 tokens的長上下文處理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
lmstudio-community
基於英偉達AceReason-Nemotron-7B的GGUF量化版本,專注於數學與代碼推理,支持128k tokens長上下文
基於英偉達AceReason-Nemotron-14B的GGUF量化版本,專注於數學與代碼推理任務,支持128k tokens長上下文
Llama-3.3-Nemotron-Super-49B-v1 是一個大型語言模型,基於 Meta Llama-3.3-70B-Instruct 改進,增強了推理能力、人類聊天偏好以及任務執行能力,支持 128K tokens 的上下文長度。
kakaocorp
Kanana 1.5是Kakao開發的雙語大語言模型,在編程、數學和函數調用能力方面有顯著提升,支持32K tokens上下文長度,通過YaRN擴展技術可處理128K tokens超長文本。
Kanana 1.5是Kanana模型家族的新版本,在編碼、數學和函數調用能力方面相比前代有顯著提升,支持32K tokens長度並可擴展至128K tokens。
由英偉達發佈的4B參數規模大語言模型,支持128k tokens上下文長度,專為推理、對話及RAG等任務優化
AM Thinking v1是由A-M團隊開發的基於Qwen 2.5-32B-Base的大語言模型,增強推理能力,支持132k tokens的上下文長度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基於 Qwen2.5-14B-Instruct 進行後訓練的大型語言模型,專為代碼生成推理優化,支持32K tokens上下文長度。
INTELLECT 2是由PrimeIntellect推出的大語言模型,支持40960 tokens的上下文長度,採用QwQ架構和GRPO強化學習框架訓練。
OpenCodeReasoning-Nemotron-32B 是基於 Qwen2.5-32B-Instruct 的代碼生成推理模型,支持32K tokens上下文長度,適用於商業和非商業用途。
Kevin 32B是由Cognition AI開發的大語言模型,支持超長上下文(40960 tokens),專注於CUDA內核生成和強化學習任務。
Qwen3-32B是由Qwen團隊開發的大語言模型,支持131,072 tokens的上下文長度,具備強大的數學、編程和常識推理能力。
Qwen3-1.7B是由Qwen開發的1.7B參數規模的大語言模型,支持32k tokens超長上下文,擅長創意寫作、角色扮演和多輪對話。
Qwen3-4B是由Qwen開發的大語言模型,支持131,072 tokens的上下文長度,擅長創意寫作、角色扮演和多輪對話。
由Qwen開發的大語言模型,支持131,072 tokens上下文長度,擅長創意寫作、角色扮演和多輪對話。
TokenScope是一個面向大型語言模型的令牌感知目錄探索工具,提供智能目錄結構分析、文件內容令牌感知提取、令牌使用統計和綜合報告生成功能。
該項目實現了一個基於Gemini API的MCP服務器,提供對多種技術文檔的訪問能力。通過2M tokens的大上下文窗口,無需傳統RAG系統的分塊或檢索步驟,直接處理完整文檔。支持查詢文檔、檢查代碼規範、解決問題提示等功能,適用於Roo/Cline環境。
LayerZero OFT MCP是一個基於TypeScript/Node.js的模型上下文協議服務器,用於創建、部署和跨鏈橋接Omnichain Fungible Tokens(OFTs)。它通過抽象化跨鏈交互的複雜性,提供了一個結構化的、上下文感知的層,便於與LLM代理、機器人或需要去中心化跨鏈功能的應用程序集成。
該項目實現了一個MCP服務器,用於連接TokenMetrics加密貨幣數據API,提供市場數據分析、交易策略回測和可視化功能,支持算法交易系統開發。