京東雲發佈OpenClaw自動化工具,作爲“全民養蝦計劃”核心,聯合多部門通過“數字龍蝦”兌換實體龍蝦的趣味激勵,降低AI Agent技術門檻,加速其在遠程控制與自動化辦公場景的應用。
中國企業通用人工智能需求激增,2025年下半年日均調用量達37萬億tokens,較上半年增長263%,顯示市場應用加速落地。
沙利文報告顯示,2025年下半年中國企業級大模型市場爆發增長,日均調用量激增263%至37萬億tokens。市場競爭激烈,頭部效應顯著,阿里雲千問表現強勁,市場份額從17.7%躍升至32.1%,穩居行業第一,字節跳動豆包緊隨其後。
阿里發佈旗艦推理模型Qwen3-Max-Thinking,參數量超萬億,預訓練數據達36T Tokens。該模型通過強化學習訓練,在事實知識、數學推理等方面表現優異,已接入千問PC端和網頁端,App即將支持。用戶可一鍵切換體驗更強推理能力。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$6
$24
256
$4
$16
$2
$20
-
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
$15
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有顯著提升的大型語言模型,增強了長上下文理解能力,適用於高度複雜的推理任務。該模型具有305億參數,其中激活33億參數,支持262,144 tokens的長上下文處理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基於Qwen/Qwen3-30B-A3B-Thinking-2507基礎模型進行量化的高效推理模型。該模型在推理任務、通用能力和長上下文理解方面有顯著提升,專門針對高度複雜的推理任務進行了優化,支持262,144 tokens的長上下文處理。
Qwen3-30B-A3B-Thinking-2507是經過量化處理的大語言模型,具有增強的推理能力、通用能力和長上下文理解能力。該模型採用混合專家架構,在邏輯推理、數學、科學、編碼等複雜任務上表現出色,支持262,144 tokens的長上下文處理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
lmstudio-community
基於英偉達AceReason-Nemotron-7B的GGUF量化版本,專注於數學與代碼推理,支持128k tokens長上下文
基於英偉達AceReason-Nemotron-14B的GGUF量化版本,專注於數學與代碼推理任務,支持128k tokens長上下文
Llama-3.3-Nemotron-Super-49B-v1 是一個大型語言模型,基於 Meta Llama-3.3-70B-Instruct 改進,增強了推理能力、人類聊天偏好以及任務執行能力,支持 128K tokens 的上下文長度。
kakaocorp
Kanana 1.5是Kakao開發的雙語大語言模型,在編程、數學和函數調用能力方面有顯著提升,支持32K tokens上下文長度,通過YaRN擴展技術可處理128K tokens超長文本。
Kanana 1.5是Kanana模型家族的新版本,在編碼、數學和函數調用能力方面相比前代有顯著提升,支持32K tokens長度並可擴展至128K tokens。
由英偉達發佈的4B參數規模大語言模型,支持128k tokens上下文長度,專為推理、對話及RAG等任務優化
AM Thinking v1是由A-M團隊開發的基於Qwen 2.5-32B-Base的大語言模型,增強推理能力,支持132k tokens的上下文長度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基於 Qwen2.5-14B-Instruct 進行後訓練的大型語言模型,專為代碼生成推理優化,支持32K tokens上下文長度。
INTELLECT 2是由PrimeIntellect推出的大語言模型,支持40960 tokens的上下文長度,採用QwQ架構和GRPO強化學習框架訓練。
OpenCodeReasoning-Nemotron-32B 是基於 Qwen2.5-32B-Instruct 的代碼生成推理模型,支持32K tokens上下文長度,適用於商業和非商業用途。
Kevin 32B是由Cognition AI開發的大語言模型,支持超長上下文(40960 tokens),專注於CUDA內核生成和強化學習任務。
Qwen3-32B是由Qwen團隊開發的大語言模型,支持131,072 tokens的上下文長度,具備強大的數學、編程和常識推理能力。
Qwen3-1.7B是由Qwen開發的1.7B參數規模的大語言模型,支持32k tokens超長上下文,擅長創意寫作、角色扮演和多輪對話。
Qwen3-4B是由Qwen開發的大語言模型,支持131,072 tokens的上下文長度,擅長創意寫作、角色扮演和多輪對話。
由Qwen開發的大語言模型,支持131,072 tokens上下文長度,擅長創意寫作、角色扮演和多輪對話。
TokenScope是一個面向大型語言模型的令牌感知目錄探索工具,提供智能目錄結構分析、文件內容令牌感知提取、令牌使用統計和綜合報告生成功能。
該項目實現了一個基於Gemini API的MCP服務器,提供對多種技術文檔的訪問能力。通過2M tokens的大上下文窗口,無需傳統RAG系統的分塊或檢索步驟,直接處理完整文檔。支持查詢文檔、檢查代碼規範、解決問題提示等功能,適用於Roo/Cline環境。
LayerZero OFT MCP是一個基於TypeScript/Node.js的模型上下文協議服務器,用於創建、部署和跨鏈橋接Omnichain Fungible Tokens(OFTs)。它通過抽象化跨鏈交互的複雜性,提供了一個結構化的、上下文感知的層,便於與LLM代理、機器人或需要去中心化跨鏈功能的應用程序集成。
該項目實現了一個MCP服務器,用於連接TokenMetrics加密貨幣數據API,提供市場數據分析、交易策略回測和可視化功能,支持算法交易系統開發。