中國電信人工智能研究院開源星辰語義大模型TeleChat3系列,包括千億參數MoE模型和稠密架構模型。該系列完全基於國產萬卡算力池訓練,數據規模達15萬億tokens,實現全棧國產化,標誌着我國超大規模AI模型自主可控取得關鍵突破。
字節跳動在火山引擎大會上發佈豆包大模型1.8和視頻生成模型Seedance 1.5 Pro,並推出“AI節省計劃”以降低企業成本。豆包大模型在推理、多語言等方面顯著提升,Seedance則優化了視頻生成質量與時長。
12月18日,火山引擎在FORCE原動力大會上宣佈,豆包大模型日均Tokens使用量已突破50萬億,位居中國第一、全球第三。同時,公司正式發佈了豆包大模型1.8與視頻生成模型Seedance1.5pro。豆包1.8在多模態Agent場景中深度優化,視覺理解能力顯著提升,支持超長視頻分析,並在工具調用和複雜指令遵循方面達到全球領先水平。
火山引擎總裁譚待在FORCE原動力大會上公佈,截至2025年12月,豆包大模型日均Tokens調用量突破50萬億,較2024年5月發佈時增長417倍,下半年增速尤爲顯著。相比2024年12月,調用量同比激增超10倍。目前已有超100家企業通過火山引擎平臺使用豆包大模型。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$6
$24
256
$2
$20
-
$4
$16
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
$15
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有顯著提升的大型語言模型,增強了長上下文理解能力,適用於高度複雜的推理任務。該模型具有305億參數,其中激活33億參數,支持262,144 tokens的長上下文處理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基於Qwen/Qwen3-30B-A3B-Thinking-2507基礎模型進行量化的高效推理模型。該模型在推理任務、通用能力和長上下文理解方面有顯著提升,專門針對高度複雜的推理任務進行了優化,支持262,144 tokens的長上下文處理。
Qwen3-30B-A3B-Thinking-2507是經過量化處理的大語言模型,具有增強的推理能力、通用能力和長上下文理解能力。該模型採用混合專家架構,在邏輯推理、數學、科學、編碼等複雜任務上表現出色,支持262,144 tokens的長上下文處理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
lmstudio-community
基於英偉達AceReason-Nemotron-7B的GGUF量化版本,專注於數學與代碼推理,支持128k tokens長上下文
基於英偉達AceReason-Nemotron-14B的GGUF量化版本,專注於數學與代碼推理任務,支持128k tokens長上下文
Llama-3.3-Nemotron-Super-49B-v1 是一個大型語言模型,基於 Meta Llama-3.3-70B-Instruct 改進,增強了推理能力、人類聊天偏好以及任務執行能力,支持 128K tokens 的上下文長度。
kakaocorp
Kanana 1.5是Kakao開發的雙語大語言模型,在編程、數學和函數調用能力方面有顯著提升,支持32K tokens上下文長度,通過YaRN擴展技術可處理128K tokens超長文本。
Kanana 1.5是Kanana模型家族的新版本,在編碼、數學和函數調用能力方面相比前代有顯著提升,支持32K tokens長度並可擴展至128K tokens。
由英偉達發佈的4B參數規模大語言模型,支持128k tokens上下文長度,專為推理、對話及RAG等任務優化
AM Thinking v1是由A-M團隊開發的基於Qwen 2.5-32B-Base的大語言模型,增強推理能力,支持132k tokens的上下文長度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基於 Qwen2.5-14B-Instruct 進行後訓練的大型語言模型,專為代碼生成推理優化,支持32K tokens上下文長度。
INTELLECT 2是由PrimeIntellect推出的大語言模型,支持40960 tokens的上下文長度,採用QwQ架構和GRPO強化學習框架訓練。
OpenCodeReasoning-Nemotron-32B 是基於 Qwen2.5-32B-Instruct 的代碼生成推理模型,支持32K tokens上下文長度,適用於商業和非商業用途。
Kevin 32B是由Cognition AI開發的大語言模型,支持超長上下文(40960 tokens),專注於CUDA內核生成和強化學習任務。
Qwen3-32B是由Qwen團隊開發的大語言模型,支持131,072 tokens的上下文長度,具備強大的數學、編程和常識推理能力。
Qwen3-1.7B是由Qwen開發的1.7B參數規模的大語言模型,支持32k tokens超長上下文,擅長創意寫作、角色扮演和多輪對話。
Qwen3-4B是由Qwen開發的大語言模型,支持131,072 tokens的上下文長度,擅長創意寫作、角色扮演和多輪對話。
由Qwen開發的大語言模型,支持131,072 tokens上下文長度,擅長創意寫作、角色扮演和多輪對話。
TokenScope是一個面向大型語言模型的令牌感知目錄探索工具,提供智能目錄結構分析、文件內容令牌感知提取、令牌使用統計和綜合報告生成功能。
該項目實現了一個基於Gemini API的MCP服務器,提供對多種技術文檔的訪問能力。通過2M tokens的大上下文窗口,無需傳統RAG系統的分塊或檢索步驟,直接處理完整文檔。支持查詢文檔、檢查代碼規範、解決問題提示等功能,適用於Roo/Cline環境。
LayerZero OFT MCP是一個基於TypeScript/Node.js的模型上下文協議服務器,用於創建、部署和跨鏈橋接Omnichain Fungible Tokens(OFTs)。它通過抽象化跨鏈交互的複雜性,提供了一個結構化的、上下文感知的層,便於與LLM代理、機器人或需要去中心化跨鏈功能的應用程序集成。
該項目實現了一個MCP服務器,用於連接TokenMetrics加密貨幣數據API,提供市場數據分析、交易策略回測和可視化功能,支持算法交易系統開發。