阿里巴巴新一代基座模型Qwen3.5即將發佈,已在HuggingFace提交代碼合併申請。該模型採用全新混合注意力機制,可能原生支持視覺理解。預計將開源至少2B密集模型及35B-A3B的MoE模型,有望在春節期間正式開源。
商湯科技開源多模態自主推理模型SenseNova-MARS,提供8B和32B版本。該模型是首個Agentic VLM,融合動態視覺推理與圖文搜索,能理解圖像並自主推理,推動多模態大模型發展。
商湯科技開源SenseNova-MARS模型,具備動態視覺推理與圖文搜索能力,模擬偵探邏輯實現AI自主執行。該模型含8B和32B版本,在MMSearch評測中以74.2分領先,性能超越GPT-5.2,標誌着AI從理解到執行的重要跨越。
Moondream3.0預覽版以輕量高效的混合專家架構(總參9B,激活僅2B)引領視覺語言模型革新。它在複雜場景中表現卓越,多項基準測試超越GPT-5、Gemini和Claude4等主流模型。相比擅長驗證碼識別的2.0版,3.0版顯著擴展了視覺推理能力,引發AI社區廣泛關注。
Proxy Lite 是一款開源的 3B 參數視覺語言模型(VLM),專注於網頁自動化任務。
VLM-R1 是一個穩定且通用的強化視覺語言模型,專注於視覺理解任務。
開源的端到端視覺語言模型(VLM)基礎的GUI代理
通過強化學習微調大型視覺-語言模型作為決策代理
Anthropic
$105
輸入tokens/百萬
$525
輸出tokens/百萬
200
上下文長度
Google
$0.7
$2.8
1k
$2.1
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
-
Baidu
128
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$0.8
$0.15
$1.5
32
Tencent
$4
$1.6
Openai
$0.4
tencent
混元OCR是由混元原生多模態架構驅動的端到端OCR專家VLM模型,僅用10億參數的輕量級設計,在多個行業基準測試中取得最先進成績。該模型擅長處理複雜的多語言文檔解析,在文本定位、開放域信息提取、視頻字幕提取和圖片翻譯等實際應用場景中表現出色。
unsloth
GLM-4.1V-9B-Thinking 是基於視覺語言模型(VLM)開發的開源模型,旨在探索視覺語言模型推理能力的上限。它通過引入'思維範式'和強化學習,顯著提升了模型能力,在10B參數的VLM中達到了領先水平。
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,專門探索視覺語言模型推理能力的上限。它引入'思考範式'並利用強化學習顯著增強能力,在10B參數的VLM中表現卓越,在多項基準任務中媲美甚至超越更大參數的模型。
dengcao
GLM-4.1V-9B-Thinking是一款強大的視覺語言模型(VLM),專注於多模態理解和推理,通過AWQ量化版本提供高效推理能力。
zai-org
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,通過引入'思維範式'和強化學習顯著提升了模型性能,在100億參數的VLMs中達到了領先水平,在18項基準任務中與甚至超越了720億參數的Qwen-2.5-VL-72B。
Mungert
一個專為社區免費開放的圖像字幕視覺語言模型(VLM),可用於訓練擴散模型,支持多樣化的圖像風格和內容。
lusxvr
nanoVLM是一款輕量級的視覺語言模型(VLM),專為高效訓練和實驗而設計。
andito
nanoVLM 是一款輕量級的視覺語言模型(VLM),專為高效訓練和實驗而設計。
Hcompany
Holo1-3B是由HCompany開發的動作視覺語言模型(VLM),專為Surfer-H網絡代理系統設計,能夠像人類用戶一樣與網頁界面進行交互。
FlashVL
FlashVL是一種優化視覺語言模型(VLMs)以用於即時應用的新方法,旨在實現超低延遲和高吞吐量,同時不犧牲準確性。
nanoVLM 是一款極簡輕量級的視覺語言模型(VLM),專為高效訓練和實驗而設計。
VLM2Vec
VLM2Vec-V2 是一個用於大規模多模態嵌入任務的模型,通過訓練視覺語言模型,為視頻、圖像和視覺文檔等多模態數據提供更強大的嵌入能力。
trillionlabs
Trillion-LLaVA-7B是一個能夠理解圖像的視覺語言模型(VLM),基於Trillion-7B-preview基礎模型開發。
nvidia
Eagle 2.5是一款前沿的視覺語言模型(VLM),專為長上下文多模態學習設計,支持處理長達512幀的視頻序列和高分辨率圖像。
nablasinc
由NABLAS開發的日語視覺語言模型(VLM),支持圖像、多圖像及視頻輸入,適用於多種多模態任務。
omlab
基於Qwen2.5-VL-3B-Instruct的零樣本目標檢測模型,通過VLM-R1強化學習增強,支持開放詞彙檢測任務。
一款基於Qwen2.5-VL-3B-Instruct的視覺語言模型,經過數學增強和VLM-R1強化學習訓練,專注於解決數學相關的視覺問答任務。
Menlo
Poseless-3B 是一種基於視覺語言模型(VLM)的機器人手部控制框架,能夠直接將2D圖像映射到關節角度,無需顯式姿態估計。
基於Qwen2.5-VL-3B-Instruct的視覺語言模型,通過VLM-R1強化學習增強,專注於指代表達式理解任務。
MIL-UT
Asagi-8B是一個大規模的日語視覺與語言模型(VLM),基於廣泛的日語數據集訓練,整合了多樣化的數據來源。