阿里通義千問團隊推出Qwen3.5小型模型系列,包括0.8B、2B、4B、9B四款輕量級模型及對應基礎版本。它們基於統一架構,具備原生多模態能力(支持圖像-文本處理),結構改進且強化學習訓練可擴展,能以更少計算資源實現更高智能水平。其中0.8B和2B模型極致小巧、推理極快,專爲邊緣設備優化。
阿里通義實驗室推出Qwen3.5系列小尺寸模型,包括0.8B、2B、4B和9B四種參數規模。這些模型基於統一基座研發,主打輕量級和高適應性,旨在降低AI應用門檻,實現從端側設備到垂直場景的低成本高效落地。
清華大學在司法人工智能大會上推出開源法律大模型LegalOne-R1,獲華爲雲昇騰AI雲服務支持。該模型提供1.7B、4B和8B三種參數版本,基於中國司法數據深度訓練,旨在爲法律領域提供智能支持。
谷歌發佈基於Gemma3架構的TranslateGemma翻譯模型系列,提供4B、12B、27B三種參數規模,支持55種核心語言翻譯,並具備多模態圖像翻譯能力,實現文本與圖片文字的無縫翻譯。
Alibaba
$0.3
輸入tokens/百萬
-
輸出tokens/百萬
32
上下文長度
Google
$140
$280
$0.14
$0.28
131
John1604
Qwen3 VL 4B Thinking 是一個支持圖像到文本以及文本到文本轉換的多模態模型,具有4B參數規模,能夠滿足多種圖文交互需求。
MaziyarPanahi
本項目提供了Qwen3-4B-Thinking-2507模型的GGUF格式文件,這是一個具有思維鏈推理能力的4B參數大語言模型,支持多種量化版本,便於在各種硬件上部署運行。
magiccodingman
這是一個基於Qwen3 4B Instruct模型的混合量化版本,採用MXFP4和混合權重技術,在保持近乎無損精度的同時實現了更小的文件大小和更高的推理速度。
這是一個基於Qwen3 4B模型的混合量化版本,採用MXFP4_MOE混合權重技術,在保持近乎無損精度的同時實現了更小的文件大小和更高的推理速度。該模型通過精心組合MXFP4和高精度嵌入/輸出權重,達到了接近Q8量化的精度水平,同時具備Q4-Q6級別的吞吐量。
bartowski
Apollo-V0.1-4B-Thinking是基於4B參數的大語言模型,採用思維鏈推理架構,專門針對推理任務優化。該模型提供了多種量化版本,可在不同硬件環境下高效運行。
vanta-research
Scout是VANTA Research基於Google Gemma 3 4B Instruct架構微調的專業語言模型,在約束感知推理和自適應問題解決方面表現出色,擅長偵察式情報收集、系統問題分解和自適應解決方案生成。
ModelCloud
這是一個基於MiniMax M2基礎模型的4bit W4A16量化版本,由ModelCloud的@Qubitum使用GPT-QModel工具進行量化。該模型專門針對文本生成任務進行了優化,在保持較好性能的同時顯著減少了模型大小和推理資源需求。
MBZUAI-Paris
Frugal-Math-4B是一款針對數學推理優化的4B參數語言模型,通過強化學習驗證獎勵(RLVR)方法訓練,能夠在保持高準確性的同時生成簡潔、可驗證的數學解決方案,顯著減少推理冗長性。
numind
NuExtract 2.0是NuMind公司專門為結構化信息提取任務訓練的一系列多模態模型。該4B版本基於Qwen2.5-VL-3B-Instruct構建,支持文本和圖像輸入,具備多語言處理能力,能夠從非結構化數據中提取結構化信息。
mradermacher
Zen-Eco-4B-Instruct是一個4B參數的大語言模型,專門針對指令跟隨和工具使用場景進行優化。本項目提供了該模型的多個GGUF量化版本,支持不同的精度和性能需求,便於在各種硬件上部署使用。
FractalAIResearch
Fathom-DeepResearch是一個智能深度研究系統,由兩個專門的4B參數模型組成:Fathom-Search-4B針對長時證據搜索優化,Fathom-Synthesizer-4B用於開放式合成和報告生成。該系統在多個搜索密集型基準測試中取得了最先進的性能,並在開放式合成基準測試上超越了多個閉源深度研究代理。
wikeeyang
這是騰訊SRPO模型的精調與量化版本,主要提升了出圖清晰度和模型兼容性,提供了8bit/4bit量化選項,為用戶帶來更優質的使用體驗。
marcelone
Qwen3 4B Instruct是基於Qwen3架構的40億參數指令微調模型,支持多語言文本生成任務。該模型提供多種量化版本,從2比特到32比特,為用戶提供靈活的性能與效率平衡選擇。
mlx-community
EmbeddingGemma 300M 4bit是Google開發的輕量級文本嵌入模型,專門針對MLX框架優化。該模型能夠將文本轉換為高質量的向量表示,適用於各種自然語言處理任務,特別是句子相似度計算和特徵提取。
這是Google Gemma 3 270M Instruct模型的4bit DWQ量化版本,專為MLX框架優化。該模型經過指令微調,支持對話交互,採用4bit DWQ量化技術減少內存佔用,適合在Apple Silicon設備上高效運行。
基於llama.cpp對騰訊混元4B指令模型進行量化的版本,通過量化技術使模型在資源受限環境中更高效運行,同時保持一定的性能和質量。提供多種量化類型選擇,支持在線重打包優化。
Kimi-K2-Instruct-4bit 是一個基於 moonshotai/Kimi-K2-Instruct 轉換而來的 4bit 量化模型,適用於 MLX 框架。
unsloth
Gemma 3n是谷歌推出的輕量級、最先進的多模態開放模型,基於Gemini技術構建。專為低資源設備設計,支持文本、圖像、視頻和音頻輸入,生成文本輸出。採用選擇性參數激活技術,在4B參數規模下高效運行。
second-state
這是Google Gemma 3 4B指令調優模型的量化版本,提供多種精度級別的GGUF格式文件,適用於不同的硬件和性能需求場景。
騰訊混元A13B大語言模型的4bit量化版本,適用於指令跟隨任務