最好的विज़ुअल लैंग्वेज मॉडल (VLM) AI工具模型_精選विज़ुअल लैंग्वेज मॉडल (VLM)資訊 - AIBase

AI資訊

小型VLM黑馬逆襲：Moondream 3.0僅2B激活參數，碾壓GPT-5和Claude 4

Moondream3.0預覽版以輕量高效的混合專家架構（總參9B，激活僅2B）引領視覺語言模型革新。它在複雜場景中表現卓越，多項基準測試超越GPT-5、Gemini和Claude4等主流模型。相比擅長驗證碼識別的2.0版，3.0版顯著擴展了視覺推理能力，引發AI社區廣泛關注。

11.3k 21 小時前

小型VLM黑馬逆襲：Moondream 3.0僅2B激活參數，碾壓GPT-5和Claude 4

顛覆傳統！Mini-o3 開源模型實現超長視覺推理，深度思考不再是難題

近日，字節跳動與香港大學聯合推出了一款全新的開源視覺推理模型 ——Mini-o3，標誌着多輪視覺推理技術的又一重大突破。與以往只能進行1-2輪對話的視覺語言模型（VLM）不同，Mini-o3在訓練時限制了對話輪數爲6輪，但在測試階段卻能將推理輪數擴展至數十輪，極大提升了視覺問題處理的能力。Mini-o3的強大之處在於其在高難度視覺搜索任務中實現了深度推理，達到當前技術的頂尖水平。這得益於該模型的三個核心設計要素。首先，研究團隊構建了一個名爲 VisualProbe 的視覺探測數據集，包

9.9k 8 小時前

顛覆傳統！Mini-o3 開源模型實現超長視覺推理，深度思考不再是難題

小米再出AI黑馬！開源多模態大模型 MiMo-VL-7B-2508 性能大幅躍升，支持思考模式切換

小米開源全新多模態大模型Xiaomi MiMo-VL-7B-2508，包含SFT和RL兩個版本。新版本優化了輸出模式，提升RL訓練穩定性，在MMMU、ChartQA等多項評測中取得突破性進步。模型創新性地支持"思考模式"和"非思考模式"切換，前者展示完整推理過程，後者響應更快。在小米內部VLM Arena評分達1131.2分，全面超越前代版本，在同類開源模型中保持領先優勢。

9.2k 3 小時前

小米再出AI黑馬！開源多模態大模型 MiMo-VL-7B-2508 性能大幅躍升，支持思考模式切換

人工智能助力醫療影像分析，減輕放射科醫師負擔

澳大利亞科研機構AEHRC正利用視覺語言模型(VLM)技術革新醫療影像分析，重點開發能自動生成胸部X光報告的AI系統。該技術通過海量醫療數據訓練，已顯著提升報告準確性，並嘗試整合急診記錄進一步優化。研究團隊強調AI旨在輔助而非替代醫生，目前正與醫院合作評估AI報告與人工報告的差異，未來將擴大臨牀試驗驗證技術普適性。核心突破在於緩解放射科醫生短缺壓力，同時確保技術應用的倫理安全性。

人工智能助力醫療影像分析，減輕放射科醫師負擔

AI產品

Proxy Lite

Proxy Lite

Proxy Lite 是一款開源的 3B 參數視覺語言模型（VLM），專注於網頁自動化任務。

自動化工作流

VLM-R1

VLM-R1

VLM-R1 是一個穩定且通用的強化視覺語言模型，專注於視覺理解任務。

CogAgent

CogAgent

開源的端到端視覺語言模型（VLM）基礎的GUI代理

RL4VLM

RL4VLM

通過強化學習微調大型視覺-語言模型作為決策代理

模型

HunyuanOCR

tencent

混元OCR是由混元原生多模態架構驅動的端到端OCR專家VLM模型，僅用10億參數的輕量級設計，在多個行業基準測試中取得最先進成績。該模型擅長處理複雜的多語言文檔解析，在文本定位、開放域信息提取、視頻字幕提取和圖片翻譯等實際應用場景中表現出色。

Transformers

Transformers多語言

GLM 4.1V 9B Thinking GGUF

unsloth

GLM-4.1V-9B-Thinking 是基於視覺語言模型（VLM）開發的開源模型，旨在探索視覺語言模型推理能力的上限。它通過引入'思維範式'和強化學習，顯著提升了模型能力，在10B參數的VLM中達到了領先水平。

Transformers

Transformers多語言

GLM 4.1V 9B Thinking

unsloth

GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型，專門探索視覺語言模型推理能力的上限。它引入'思考範式'並利用強化學習顯著增強能力，在10B參數的VLM中表現卓越，在多項基準任務中媲美甚至超越更大參數的模型。

Transformers

Transformers多語言

GLM 4.1V 9B Thinking AWQ

dengcao

GLM-4.1V-9B-Thinking是一款強大的視覺語言模型（VLM），專注於多模態理解和推理，通過AWQ量化版本提供高效推理能力。

Transformers

GLM 4.1V 9B Thinking

zai-org

GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型，通過引入'思維範式'和強化學習顯著提升了模型性能，在100億參數的VLMs中達到了領先水平，在18項基準任務中與甚至超越了720億參數的Qwen-2.5-VL-72B。

Transformers

Transformers多語言

Llama Joycaption Beta One Hf Llava GGUF

Mungert

一個專為社區免費開放的圖像字幕視覺語言模型（VLM），可用於訓練擴散模型，支持多樣化的圖像風格和內容。

Transformers

NanoVLM 450M

lusxvr

nanoVLM是一款輕量級的視覺語言模型（VLM），專為高效訓練和實驗而設計。

Safetensors

NanoVLM

andito

nanoVLM 是一款輕量級的視覺語言模型（VLM），專為高效訓練和實驗而設計。

Safetensors

Holo1 3B

Hcompany

Holo1-3B是由HCompany開發的動作視覺語言模型(VLM)，專為Surfer-H網絡代理系統設計，能夠像人類用戶一樣與網頁界面進行交互。

Transformers

Transformers英語

FlashVL 2B Dynamic ISS

FlashVL

FlashVL是一種優化視覺語言模型（VLMs）以用於即時應用的新方法，旨在實現超低延遲和高吞吐量，同時不犧牲準確性。

Transformers

Transformers多語言

NanoVLM 222M

lusxvr

nanoVLM 是一款極簡輕量級的視覺語言模型（VLM），專為高效訓練和實驗而設計。

Safetensors

VLM2Vec V2.0

VLM2Vec

VLM2Vec-V2 是一個用於大規模多模態嵌入任務的模型，通過訓練視覺語言模型，為視頻、圖像和視覺文檔等多模態數據提供更強大的嵌入能力。

Transformers

Transformers英語

Trillion LLaVA 7B

trillionlabs

Trillion-LLaVA-7B是一個能夠理解圖像的視覺語言模型（VLM），基於Trillion-7B-preview基礎模型開發。

Transformers

Transformers多語言

Eagle2.5 8B

nvidia

Eagle 2.5是一款前沿的視覺語言模型（VLM），專為長上下文多模態學習設計，支持處理長達512幀的視頻序列和高分辨率圖像。

Transformers

Transformers其他

NABLA VL

nablasinc

由NABLAS開發的日語視覺語言模型（VLM），支持圖像、多圖像及視頻輸入，適用於多種多模態任務。

Transformers

Transformers日語

VLM R1 Qwen2.5VL 3B OVD 0321

omlab

基於Qwen2.5-VL-3B-Instruct的零樣本目標檢測模型，通過VLM-R1強化學習增強，支持開放詞彙檢測任務。

Safetensors

Safetensors英語

VLM R1 Qwen2.5VL 3B Math 0305

omlab

一款基於Qwen2.5-VL-3B-Instruct的視覺語言模型，經過數學增強和VLM-R1強化學習訓練，專注於解決數學相關的視覺問答任務。

Safetensors

Safetensors英語

Poseless 3B

Menlo

Poseless-3B 是一種基於視覺語言模型（VLM）的機器人手部控制框架，能夠直接將2D圖像映射到關節角度，無需顯式姿態估計。

Transformers

Qwen2.5VL 3B VLM R1 REC 500steps

omlab

基於Qwen2.5-VL-3B-Instruct的視覺語言模型，通過VLM-R1強化學習增強，專注於指代表達式理解任務。

Safetensors

Safetensors英語

Asagi 8B

MIL-UT

Asagi-8B是一個大規模的日語視覺與語言模型（VLM），基於廣泛的日語數據集訓練，整合了多樣化的數據來源。

Transformers

Transformers日語

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2025AIBase

商務合作網站地圖