xAI發佈Grok4.1,響應延遲降低42%,意圖識別準確率提升18%,對話連貫性優化。基於Grok-4MoE架構,新增實時反饋層與個性化緩存,實現“秒回”體驗。面向X Premium+用戶無限使用,API定價維持每百萬token 5美元。MT-Bench得分8.97,HumanEval代碼生成通過率87.1%,多輪對話一致性達91.4%,刷新多項基準紀錄。
FutureHouse推出AI科研系統Kosmos,12小時可處理1500篇論文、生成4.2萬行代碼,產出相當於人類團隊半年工作量。系統基於結構化世界模型,在超千萬token中保持邏輯連貫,已在神經科學等領域完成7項發現,含4項首次報道。其自主循環架構實現文獻檢索、知識圖譜更新與規劃迭代。
腦機接口正式升級爲國家戰略技術,寫入“十四五”規劃。市場規模預計從2024年32億元增至2040年1200億元,年均增長26%。意念控制等科幻場景正加速融入現實,推動數字經濟發展。
AMD於2025年11月11日收購AI推理初創公司MK1,旨在強化其在AI推理領域的戰略佈局。MK1的核心技術“Flywheel”與AMD的Instinct GPU深度優化,日處理超萬億token,顯著提升推理能力。收購後,MK1團隊將併入AMD AI事業部,助力公司鞏固市場地位。
智能AI令牌管理和優化
一款通過向AI基金經理Lucy推銷token來說服其投資的貨幣實驗性遊戲。
支持100萬Token上下文的開源Qwen模型,適用於長序列處理任務
持續搜索和閱讀網頁,直到找到答案(或超出token預算)。
google
$9
輸入tokens/百萬
$72
輸出tokens/百萬
1M
上下文長度
chatglm
$4.03
$7.99
128k
minimax
-
$2.16
$18
deepseek
$15.98
$2.02
$5.98
$0.72
$2.88
$0.86
$1.3
perplexity
127k
baidu
$2
$8
32k
$1.94
$7.92
200k
$1
4M
azure
Ali-Yaser
本模型是基於meta-llama/Llama-3.3-70B-Instruct進行微調得到的版本,使用mlabonne/FineTome-100k數據集進行訓練,包含100k token數據。模型採用Unsloth和Huggingface TRL庫進行微調,支持英文語言處理。
inclusionAI
Ming-flash-omni 預覽版是基於 Ling-Flash-2.0 稀疏專家混合(MoE)架構構建的多模態大模型,總參數達100B,每個token僅激活6B參數。該模型在Ming-Omni基礎上進行了全面升級,在多模態理解和生成方面有顯著提升,特別是在語音識別、圖像生成和分割編輯方面表現突出。
Downtown-Case
GLM 4.6是一款專為128GB內存+單GPU配置優化的量化模型,採用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的質量和性能。該模型需要配合ik_llama.cpp使用,在128GB雙通道DDR5內存、單CCD Ryzen 7000處理器+單張3090顯卡配置下,文本生成速度可達每秒約6.8個token。
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
gabriellarson
Seed-OSS是由字節跳動Seed團隊開發的開源大語言模型系列,具備強大的長上下文處理、推理和智能體交互能力。僅使用12T token訓練,在多個公開基準測試中表現出色,支持高達512K的原生長上下文處理。
ByteDance-Seed
Seed-OSS是由字節跳動Seed團隊開發的開源大語言模型系列,具備強大的長上下文處理、推理、智能體交互能力和通用性能。該模型僅使用12T token訓練,在多個公開基準測試中表現出色。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有顯著提升的大型語言模型,增強了長上下文理解能力,適用於高度複雜的推理任務。該模型具有305億參數,其中激活33億參數,支持262,144 tokens的長上下文處理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基於Qwen/Qwen3-30B-A3B-Thinking-2507基礎模型進行量化的高效推理模型。該模型在推理任務、通用能力和長上下文理解方面有顯著提升,專門針對高度複雜的推理任務進行了優化,支持262,144 tokens的長上下文處理。
Qwen3-30B-A3B-Thinking-2507是經過量化處理的大語言模型,具有增強的推理能力、通用能力和長上下文理解能力。該模型採用混合專家架構,在邏輯推理、數學、科學、編碼等複雜任務上表現出色,支持262,144 tokens的長上下文處理。
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基於Meta Llama-3.3-70B-Instruct的大語言模型,經過多階段後訓練增強了推理和非推理能力。支持128K token上下文長度,在準確性和效率之間取得了良好平衡,適用於推理、聊天和代理任務。
DavidAU
這是一個基於Qwen 3平臺的編碼/編程模型,具備完整的推理能力,速度極快。在中等硬件上每秒能處理超過150個token,僅使用CPU時每秒也能處理50個以上token。它是一個通用的編碼模型,適用於生成代碼塊、構思編碼思路以及快速生成代碼草稿。
internlm
Intern-S1是目前最先進的開源多模態推理模型,結合了強大的通用任務處理能力和在廣泛科學任務中的卓越性能,可與領先的閉源商業模型相媲美。該模型在5T token數據集上進行持續預訓練,其中超過50%是專業科學數據,具備動態分詞器能夠原生理解分子式、蛋白質序列和地震信號。
FlameF0X
SnowflakeCore-G1-Tiny2是基於GPT風格的自定義Transformer語言模型,是SnowflakeCore-G1-Tiny的改進版本。該模型使用PyTorch從頭構建,在common-pile/wikimedia_filtered數據集上訓練,擁有約4億參數,支持2048 token上下文窗口,專為文本生成任務設計。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
lmstudio-community
基於Transformer架構的文本生成模型,專注於軟件工程任務,支持40k token的上下文長度。
百度ERNIE 4.5 0.3B是基於Transformer架構的雙語文本生成模型,在通用語言理解和生成任務上表現優異,支持中英雙語處理,上下文長度達128k token。
SynthLabsAI
ALP_DeepScaleR_1.5B_C16K是基於DeepScaleR-1.5B模型,採用自適應長度懲罰(ALP)方法進行訓練的模型,能在保持性能的同時顯著減少token使用量。
基於英偉達AceReason-Nemotron-7B的GGUF量化版本,專注於數學與代碼推理,支持128k tokens長上下文
基於英偉達AceReason-Nemotron-14B的GGUF量化版本,專注於數學與代碼推理任務,支持128k tokens長上下文
Llama-3.3-Nemotron-Super-49B-v1 是一個大型語言模型,基於 Meta Llama-3.3-70B-Instruct 改進,增強了推理能力、人類聊天偏好以及任務執行能力,支持 128K tokens 的上下文長度。
HiveChat是一個專為中小團隊設計的AI聊天應用,支持多種大模型服務商,提供分組管理、Token限額、第三方登錄等功能。
MCP文本編輯器服務器是一個基於Model Context Protocol的文本文件編輯服務,提供行導向的文本文件操作能力,支持高效的部分文件訪問以減少LLM工具的token消耗。具備併發編輯檢測、多文件原子操作和多種編碼支持等特性。
TokenScope是一個面向大型語言模型的令牌感知目錄探索工具,提供智能目錄結構分析、文件內容令牌感知提取、令牌使用統計和綜合報告生成功能。
一個與AI代碼編輯器集成的MCP服務器,通過Gemini 2.5的百萬token上下文窗口和任務管理功能,優化Cursor的代理能力。
一個封裝V2EX官方API 2.0的服務器,提供通知管理、用戶信息、節點話題等接口功能,支持通過npm全局安裝並配置token使用。
godoc-mcp是一個高效的Go文檔訪問工具,通過MCP協議為LLM提供結構化、低token消耗的Go項目文檔訪問服務,支持本地和遠程包文檔查詢。
MCP BatchIt是一個MCP工具調用批處理服務器,通過聚合多個MCP工具調用到一個請求中,顯著減少AI代理的通信開銷和token消耗。
這是一個增強版的MCP服務器內容搜索工具,支持正則表達式搜索、過濾控制,並優化了輸出格式和token管理。
基於Notion的Markdown導航MCP服務,實現無token訪問與智能筆記管理
一個高性能的Raydium DEX代幣狙擊工具,集成Claude AI支持自然語言交互,具備多區域部署和快速執行能力。
一個優化的Playwright MCP服務器,採用客戶端-服務端架構實現瀏覽器自動化,通過創新的語義快照算法大幅減少頁面內容傳輸量,保留關鍵元素的同時降低90%的token消耗。
基於Gemini的上下文管理與緩存MCP服務器,支持2M token大上下文窗口,提供會話管理和API緩存功能。
釘釘MCP服務是一個基於Model Control Protocol的釘釘API訪問服務,提供獲取token、部門及用戶信息等功能。
bonk-mcp服務器實現了Solana區塊鏈功能,支持在LetsBonk平臺上創建和交易代幣。
一個MCP服務器項目,提供基於token數量自動選擇OpenAI O3或Google Gemini 2.5 Pro模型的服務,支持文件路徑遞歸嵌入提示詞,適用於代碼審查和複雜問題解決。
一個基於MCP協議的內存緩存服務器,通過高效緩存語言模型交互數據來減少token消耗,支持自動管理和配置優化。
一個用於檢查和撤銷ERC-20代幣授權的MCP服務器,增強安全性和控制力。
Token Minter MCP是一個支持21條區塊鏈的ERC-20代幣鑄造服務,提供代幣部署、轉賬、查詢等工具集。
NCP是一個MCP協議智能編排器,將多個MCP服務器統一管理,通過語義理解自動路由工具調用,大幅減少AI工具的認知負擔和token消耗,提升AI助手的工作效率和響應速度。
該項目實現了一個基於Gemini API的MCP服務器,提供對多種技術文檔的訪問能力。通過2M tokens的大上下文窗口,無需傳統RAG系統的分塊或檢索步驟,直接處理完整文檔。支持查詢文檔、檢查代碼規範、解決問題提示等功能,適用於Roo/Cline環境。