小鵬汽車在2025科技日發佈第二代VLA模型,實現從視覺信號到動作指令的端到端輸出,突破傳統架構,無需語言轉譯。該模型成爲首個量產物理世界大模型,爲智能駕駛、機器人和飛行汽車等領域提供智能基礎,能力突出。
IBM推出Granite4.0Nano系列小型AI模型,專爲本地和邊緣推理設計,含8個模型,分350M和1B兩種規模。採用混合SSM與變換器架構,支持基礎和指令模式,基於Apache2.0開源許可,兼容vLLM等流行運行時,提升企業控制力。
寒武紀成功適配DeepSeek-V3.2-Exp實驗模型並開源vLLM-MLU推理引擎,推動AI技術發展。該模型在功能效率上創新突破,標誌寒武紀大模型軟件生態建設取得重要進展,爲開發者提供新工具,增強行業信心。
Moondream3.0預覽版以輕量高效的混合專家架構(總參9B,激活僅2B)引領視覺語言模型革新。它在複雜場景中表現卓越,多項基準測試超越GPT-5、Gemini和Claude4等主流模型。相比擅長驗證碼識別的2.0版,3.0版顯著擴展了視覺推理能力,引發AI社區廣泛關注。
高效的開源專家混合視覺語言模型,具備多模態推理能力。
Proxy Lite 是一款開源的 3B 參數視覺語言模型(VLM),專注於網頁自動化任務。
olmOCR-7B-0225-preview 是一個基於 Qwen2-VL-7B-Instruct 微調的文檔圖像識別模型,用於高效轉換文檔為純文本。
VLM-R1 是一個穩定且通用的強化視覺語言模型,專注於視覺理解任務。
baidu
$3
輸入tokens/百萬
$15
輸出tokens/百萬
32k
上下文長度
QuantTrio
MiniMax-M2-AWQ是基於MiniMaxAI/MiniMax-M2模型的量化版本,通過vLLM框架實現高效的文本生成。該模型採用AWQ量化技術,在保持模型性能的同時顯著減少內存佔用和提升推理速度,支持32K上下文長度和工具調用功能。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款強大的多模態視覺語言模型,支持多圖像推理和視頻理解,具備文檔智能、視覺問答和摘要功能,可用於商業用途。
bullpoint
GLM-4.6-AWQ是對智譜AI的GLM-4.6(357B MoE)進行高性能AWQ量化的模型,專為vLLM推理進行了優化,能有效提升生產部署的吞吐量。該模型採用4位量化技術,在保持高精度的同時顯著減少顯存佔用。
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
VLA-Adapter
VLA-Adapter是一種在Libero-Spatial上訓練的微型視覺語言動作模型,採用Prismatic-VLM架構,僅使用Qwen2.5-0.5B作為大語言模型主幹。該模型在機器人基準測試中超越了參數規模更大的開源VLA模型,實現了高性能的視覺-語言-動作理解與執行。
TheClusterDev
這是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通過vLLM框架支持,在保持模型質量的同時顯著減小了模型體積,提升了推理效率。
pytorch
這是由PyTorch團隊開發的FP8量化版本Gemma-3-27B模型,基於google/gemma-3-27b-it進行FP8量化處理。該模型通過vLLM和Transformers兩種方式支持高效推理,在保持模型質量的同時顯著降低了內存使用並提升了推理速度。
brandonbeiler
這是OpenGVLab/InternVL3_5-8B的fp8動態(w8a8)量化版本,針對vLLM高性能推理進行了優化。採用FP8動態量化技術,在保持視覺理解能力的同時顯著減少內存佔用並提升推理速度。
這是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8動態量化版本,採用w8a8技術優化,專門針對vLLM進行高性能推理部署。該模型在保持視覺語言理解能力的同時,顯著提升了推理速度和內存效率。
這是OpenGVLab/InternVL3_5-30B-A3B的fp8動態(w8a8)量化版本,針對vLLM高性能推理優化,採用FP8動態量化技術,內存佔用減少約50%,推理速度顯著提升
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed開發的大型語言模型,參數量達360億,採用Apache-2.0開源許可證。該模型基於transformers庫構建,支持vllm和mlx技術優化,特別針對蘋果Silicon芯片進行了8位量化處理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是字節跳動開發的文本生成模型,基於36B參數規模的大語言模型架構,專門針對指令跟隨任務進行優化。該模型支持中英文雙語,採用Apache-2.0開源許可證,可通過vllm和mlx推理框架進行高效部署。
RedHatAI
這是 Google Gemma-3n-E2B-it 模型的量化版本,通過將權重量化為 INT4 數據類型進行優化,可使用 vLLM 框架進行高效推理。該模型支持音頻-視覺-文本多模態輸入,輸出為文本。
這是一個基於Google Gemma-3n-E2B-it的量化版本模型,採用FP8數據類型進行權重和激活量化,支持音頻、視覺和文本多模態輸入,輸出為文本。模型通過vLLM實現高效部署,在保持高精度的同時顯著提升推理效率。
ELVISIO
Qwen3-30B-A3B-Instruct-2507-AWQ 是 Qwen3-30B-A3B-Instruct-2507 的 AWQ int4 量化版本,具有 305 億總參數和 33 億激活參數。該模型在指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等方面有顯著改進,支持 256K 長上下文理解能力,可與 Transformers 和 vLLM 兼容高效進行文本生成。
btbtyler09
Devstral-Small-2507-AWQ是基於mistralai/Devstral-Small-2507模型派生的量化版本,採用AutoAWQ技術進行4位量化,專為在vLLM推理引擎上高效運行而優化。
unsloth
GLM-4.1V-9B-Thinking 是基於視覺語言模型(VLM)開發的開源模型,旨在探索視覺語言模型推理能力的上限。它通過引入'思維範式'和強化學習,顯著提升了模型能力,在10B參數的VLM中達到了領先水平。
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,專門探索視覺語言模型推理能力的上限。它引入'思考範式'並利用強化學習顯著增強能力,在10B參數的VLM中表現卓越,在多項基準任務中媲美甚至超越更大參數的模型。
dengcao
GLM-4.1V-9B-Thinking是一款強大的視覺語言模型(VLM),專注於多模態理解和推理,通過AWQ量化版本提供高效推理能力。
zai-org
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,通過引入'思維範式'和強化學習顯著提升了模型性能,在100億參數的VLMs中達到了領先水平,在18項基準任務中與甚至超越了720億參數的Qwen-2.5-VL-72B。
一個基於VLC媒體播放器的MCP服務器,支持通過MCP客戶端遠程控制和播放視頻。適用於Linux系統,可通過Signal等客戶端實現遠程電影播放控制。
一個基於MCP的vLLM交互式性能測試工具原型
vLLM是一個高效、易用的LLM推理和服務庫,支持多種模型架構和優化技術,提供高性能的LLM服務。