最好的Qwen2.5-VL-3B AI工具模型_精選Qwen2.5-VL-3B資訊 - AIBase

AI資訊

新開源 AI 系統 OmniGen 2：像GPT-4o 一樣融合了圖像和文本生成

近日，北京人工智能研究院推出了全新的開源系統 ——OmniGen2。這一系統專注於文本到圖像的生成、圖像編輯和上下文圖像創作。與2024年發佈的第一代 OmniGen 相比，OmniGen2採用了兩條獨立的解碼路徑:一條用於文本生成，另一條用於圖像生成，且各自擁有獨立的參數和解耦的圖像標記器。這種設計讓模型在保持文本生成能力的同時，有效地提升了多模態語言模型的表現。OmniGen2的核心是一個基於 Qwen2.5-VL-3B 變換器的大型多模態語言模型（MLLM）。在圖像生成方面，該系統使用了一種自定義的擴

新開源 AI 系統 OmniGen 2：像GPT-4o 一樣融合了圖像和文本生成

模型

NuExtract 2.0 4B GGUF

numind

NuExtract 2.0是NuMind公司專門為結構化信息提取任務訓練的一系列多模態模型。該4B版本基於Qwen2.5-VL-3B-Instruct構建，支持文本和圖像輸入，具備多語言處理能力，能夠從非結構化數據中提取結構化信息。

Transformers

Owlet Safety 3b 1

phronetic-ai

Owlet Safety 1是基於Qwen2.5-VL-3B-Instruct微調的多標籤安全事件檢測模型，專門用於視頻監控中的安全活動識別，能夠同時檢測多種安全相關事件如火災、煙霧、摔倒、襲擊等。

Transformers

VisionOCR 3B 061125 GGUF

prithivMLmods

基於Qwen2.5-VL-3B-Instruct微調的視覺OCR模型，專注於文檔級OCR、長上下文視覺語言理解和數學LaTeX格式轉換

Transformers

Transformers英語

Qwen2.5 VL 3B UI R1 E

LZXzju

UI-R1-E-3B是基於Qwen2.5-VL-3B-Instruct微調的高效GUI定位模型，專注於視覺問答任務，特別擅長在用戶界面截圖中定位和識別操作元素。

Safetensors

Safetensors英語

Qwen2.5 VL 3B Instruct GGUF

unsloth

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備強大的視覺理解和多模態處理能力。

Gguf

QwenGuard V1.2 3B

AIML-TUDA

QwenGuard-v1.2-3B是基於Qwen/Qwen2.5-VL-3B-Instruct開發的視覺安全防護模型，用於評估圖像內容的安全性。

Transformers

Qwen2.5 VL 3B Instruct GGUF

lmstudio-community

Qwen2.5-VL-3B-Instruct的量化版本，是一款支持多模態的文本生成模型，可實現圖像與文本的交互，為用戶提供更豐富的交互體驗。由bartowski基於llama.cpp進行量化。

Gguf

lmstudio-community

TBAC VLR1 3B Preview

TencentBAC

由騰訊PCG基礎算法中心微調的多模態語言模型，基於Qwen2.5-VL-3B-Instruct優化，在同規模模型中實現多項多模態推理基準的最先進性能

Safetensors

Safetensors英語

Space Voice Label Detect Beta

devJy

基於Qwen2.5-VL-3B模型的微調版本，使用Unsloth和Huggingface TRL庫進行訓練，推理速度提升2倍

Transformers

Transformers英語

Qwen2.5 VL 3B Instruct GGUF

Mungert

Qwen2.5-VL-3B-Instruct是一個3B參數規模的多模態模型，支持圖文生成任務，特別優化了在llama.cpp中的視覺功能支持。

Gguf

Qwen.Qwen2.5 VL 3B Instruct GGUF

DevQuasar

Qwen2.5-VL-3B-Instruct 是一個3B參數的視覺語言模型，支持圖文生成文本任務。

Gguf

VLM R1 Qwen2.5VL 3B OVD 0321

omlab

基於Qwen2.5-VL-3B-Instruct的零樣本目標檢測模型，通過VLM-R1強化學習增強，支持開放詞彙檢測任務。

Safetensors

Safetensors英語

Qwen2.5 VL 3B Instruct GPTQ Int3

hfl

Qwen2.5-VL-3B-Instruct的GPTQ-Int3量化版本，適用於多模態圖像文本處理任務，顯存佔用更少，推理速度更快。

Transformers

Transformers多語言

Qwen2.5 VL 3B UI R1

LZXzju

UI-R1是通過強化學習增強GUI代理動作預測的視覺語言模型，基於Qwen2.5-VL-3B-Instruct構建。

Safetensors

Safetensors英語

Colqwen2.5 3b Multilingual V1.0

tsystems

基於Qwen2.5-VL-3B-Instruct與ColBERT策略的多語言視覺檢索模型，支持動態輸入圖像分辨率和多語言文檔檢索。

Safetensors

Safetensors多語言

Colqwen2.5 3b Multilingual V1.0 Merged

tsystems

基於Qwen2.5-VL-3B-Instruct與ColBERT策略的多語言視覺檢索模型，支持動態輸入圖像分辨率，生成ColBERT風格的多向量文本與圖像表徵。

Transformers

Transformers多語言

VLM R1 Qwen2.5VL 3B Math 0305

omlab

一款基於Qwen2.5-VL-3B-Instruct的視覺語言模型，經過數學增強和VLM-R1強化學習訓練，專注於解決數學相關的視覺問答任務。

Safetensors

Safetensors英語

Qwen2.5 VL 3B Instruct GPTQ Int4

hfl

這是Qwen2.5-VL-3B-Instruct模型的GPTQ-Int4量化版本，適用於圖像文本到文本的多模態任務，支持中文和英語。

Transformers

Transformers多語言

Qwen2.5VL 3B VLM R1 REC 500steps

omlab

基於Qwen2.5-VL-3B-Instruct的視覺語言模型，通過VLM-R1強化學習增強，專注於指代表達式理解任務。

Safetensors

Safetensors英語

ColQwen2.5 3b Multilingual V1.0

Metric-AI

基於Qwen2.5-VL-3B-Instruct並採用ColBERT策略的多語言視覺檢索器，在Vidore基準測試中表現優異

Safetensors

Safetensors多語言

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖