近日,開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview,被譽爲網頁代理領域新標杆。該模型採用混合專家(MoE)架構,總參數達300億,但推理時僅激活部分參數,兼顧強大性能與輕量化運行,顯著降低了AI瀏覽器操作的成本與門檻。
Perplexity AI平臺於12月18日宣佈,其Pro和Max訂閱用戶現已全面接入谷歌最新輕量級模型Gemini3Flash。該模型主打低延遲與高吞吐,在保持強大語言理解能力的同時,顯著優化了推理成本和響應速度。此次更新旨在爲用戶提供更快速、流暢的搜索體驗,標誌着平臺在提升響應效率方面邁出關鍵一步。
字節跳動在火山引擎大會上發佈豆包大模型1.8和視頻生成模型Seedance 1.5 Pro,並推出“AI節省計劃”以降低企業成本。豆包大模型在推理、多語言等方面顯著提升,Seedance則優化了視頻生成質量與時長。
AWS在re:Invent2025大會上推出四款自研“Nova2”系列大模型,覆蓋文本、圖像、視頻、語音多模態場景,並首次內置網頁檢索與代碼執行能力,宣稱在價格性能比上達到業界領先。其中,Nova2 Lite定位高性價比推理,在多項基準測試中表現優於Claude Haiku4.5和GPT-5Mini,成本僅爲後者約50%;Nova2 Pro則面向複雜Agent任務。
無限令牌,無限制,成本效益高的LLM推理API平臺。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
$17.5
$21
$105
$0.7
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Moonshot
Bytedance
$0.8
$0.15
$1.5
noctrex
這是一個基於Huihui-MiroThinker-v1.0-30B模型進行的MXFP4_MOE imatrix量化版本,專門針對文本生成任務優化,在保持模型性能的同時顯著減小了模型體積和推理成本。
DevQuasar
本項目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力於讓知識為大眾所用。這是一個1720億參數的大型語言模型,經過優化和量化處理,旨在降低部署成本和提高推理效率。
這是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,專門針對文本生成任務進行了優化。該模型基於cerebras的GLM-4.5-Air-REAP-82B-A12B基礎模型,通過MXFP4混合專家量化技術實現,在保持性能的同時顯著減小模型體積和推理成本。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自迴歸視覺語言模型,基於優化的 Transformer 架構,能夠同時處理圖像和文本輸入。該模型採用 FP4 量化技術,在保持性能的同時顯著減少模型大小和推理成本,適用於多種多模態應用場景。
Qwen3-Nemotron-32B-RLBFF是基於Qwen/Qwen3-32B微調的大語言模型,通過強化學習反饋技術顯著提升了模型在默認思維模式下生成回覆的質量。該模型在多個基準測試中表現出色,同時保持較低的推理成本。
huihui-ai
這是基於Huihui-gpt-oss-20b-BF16-abliterated-v2的mxfp4量化版本,專門用於文本生成任務。該模型採用了MXFP4量化技術,在保持性能的同時顯著減小了模型大小和推理成本,支持多種部署方式包括QAT、ollama和GGUF格式。
本項目是阿里巴巴通義深度研究30B模型的A3B量化版本,旨在通過量化技術降低模型部署成本,讓知識為每個人所用。該模型基於30B參數規模的大語言模型進行優化,保持了原模型的強大能力同時提升了推理效率。
facebook
MobileLLM-R1是MobileLLM系列中的高效推理模型,專門針對數學、編程和科學問題進行優化,在參數規模更小的情況下實現了更高的準確率,具有低訓練成本和高效率的特點。
amd
PARD是一種高性能的推測解碼方法,能夠以低成本將自迴歸草稿模型轉換為並行草稿模型,顯著提升大語言模型的推理速度,降低部署複雜度和適配成本。
Vinnnf
Thinkless是一個通過強化學習訓練的大語言模型,能夠自適應選擇簡答或長鏈推理模式,顯著降低推理計算成本。
FractalAIResearch
以499美元訓練成本實現的14B參數數學推理模型,在16K上下文窗口下達到媲美閉源o4-mini的性能
Fathom-R1-14B是一個基於R1-distilled-14B模型的項目,以499美元的低訓練成本在16K上下文下實現o4-mini水平的數學推理能力。
NucleusAI
基於RetNet架構與Transformer混合的線性計算成本推理模型,通過跨架構遷移學習實現