最好的Qwen2.5-VL-7B AI工具模型_精選Qwen2.5-VL-7B資訊 - AIBase

AI資訊

小米多模態大模型Xiaomi MiMo-VL開源

近日，小米公司研發的MiMo-VL多模態模型接過MiMo-7B的接力棒，在多個領域展現出了強大的實力。該模型在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標杆多模態模型Qwen2.5-VL-7B，在GUI Grounding任務上的表現更是可與專用模型相媲美，爲Agent時代的到來做好了準備。

小米多模態大模型Xiaomi MiMo-VL開源

模型

DIMI Arabic OCR V2

AhmedZaky1

DIMI阿拉伯語OCR v2是一款專門針對阿拉伯語文本識別優化的光學字符識別模型，基於Qwen2.5-VL-7B-Instruct微調開發，在變音符密集文本處理方面相比v1版本有顯著改進

Peft

Peft阿拉伯語

OlmOCR 2 7B 1025 FP8

allenai

olmOCR-2-7B-1025的FP8量化版本，基於Qwen2.5-VL-7B-Instruct微調而來，專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。

Transformers

Transformers英語

VideoChat R1_5 7B

OpenGVLab

VideoChat-R1_5-7B是基於Qwen2.5-VL-7B-Instruct構建的視頻文本交互模型，支持多模態任務，特別擅長視頻問答功能。該模型通過強化微調增強時空感知能力，並採用迭代感知機制來強化多模態推理。

Transformers

Transformers英語

VideoScore2 SFT No CoT

TIGER-Lab

本項目基於Qwen2.5-VL-7B-Instruct模型，專注於視覺問答任務，能夠精準回答圖像相關問題，具備較高的準確性和相關性。這是一個多模態視覺語言模型，支持圖像理解和基於圖像的問答交互。

Safetensors

Safetensors英語

ARC Qwen Video 7B

TencentARC

ARC-Qwen-Video-7B是騰訊ARC實驗室開發的用於理解現實世界短視頻的多模態模型，基於Qwen2.5-VL-7B-Instruct構建，支持音視頻同步分析和理解。

Transformers

VideoScore2 SFT

TIGER-Lab

Qwen2.5-VL-7B-Instruct是阿里巴巴通義千問團隊開發的多模態視覺語言模型，基於70億參數規模，專門針對視覺問答任務進行優化訓練。該模型能夠理解和分析圖像內容，並生成準確的自然語言回答。

Safetensors

Safetensors英語

Qwen2.5 VL 7B Instruct NVFP4

nvidia

NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本，採用優化的Transformer架構，支持多模態輸入（文本和圖像），適用於多種AI應用場景。該模型通過TensorRT Model Optimizer進行FP4量化，在NVIDIA GPU上提供高效的推理性能。

Safetensors

OlmOCR 7B 0825 FP8

allenai

這是基於Qwen2.5-VL-7B-Instruct微調的FP8量化版本OCR模型，專門用於文檔圖像文本識別，支持高效的大規模文檔處理。

Transformers

Transformers英語

Qwen2.5 Vl 7b It Gguf

chatpig

Qwen2.5-VL-7B-IT-GGUF是一個強大的多模態模型，支持文本和圖像到文本的生成任務，具備文本編碼能力，並與多種工具兼容。

Gguf

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

mradermacher

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多語言圖像描述任務。

Transformers

Transformers多語言

Qwen2.5 VL 7B Abliterated Caption It GGUF

mradermacher

這是一個基於Qwen2.5-VL-7B模型的靜態量化版本，專注於圖像描述生成任務，支持多種語言。

Transformers

Transformers多語言

OlmOCR 7B 0725 FP8

allenai

olmOCR-7B-0725-FP8是基於Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225數據集微調後量化為FP8版本的文檔OCR模型。

Transformers

Transformers英語

Qwen2.5 VL 7B Meteorology I1 GGUF

mradermacher

Qwen2.5-VL-7B-Meteorology的量化版本，適用於氣象、氣候等領域的圖像文本處理任務，能在不同硬件條件下高效運行。

Transformers

Transformers英語

Qwen2.5 VL 7B Meteorology GGUF

mradermacher

Qwen2.5-VL-7B-Meteorology 的量化版本，適用於氣象相關的圖像文本處理任務。

Transformers

Transformers英語

Qwen2.5 VL 7B Instruct_gemlite Ao_a8w8

mobiuslabsgmbh

這是一個經過A8W8量化的多模態大語言模型，基於Qwen2.5-VL-7B-Instruct，支持視覺和語言任務。

Transformers

ViLaSR

AntResearchNLP

ViLaSR-7B是基於Qwen2.5-VL-7B-Instruct構建的視覺語言模型，專門用於增強空間推理能力。通過交織思維和視覺繪圖的方法，該模型在圖像文本到文本轉換任務中表現出色，能夠更好地理解和處理空間關係信息。

Safetensors

Safetensors英語

ViLaSR

inclusionAI

ViLaSR-7B是一個基於Qwen2.5-VL-7B-Instruct構建的視覺語言模型，專門針對多模態場景下的圖像與文本交互及空間推理問題進行了優化，通過交織思考和視覺繪圖的方法增強空間推理能力。

Safetensors

Safetensors英語

PixelReasoner RL V1

TIGER-Lab

PixelReasoner是一個基於Qwen2.5-VL-7B-Instruct的視覺語言模型，採用好奇心驅動強化學習訓練，專注於圖像文本到文本的任務。

Transformers

Transformers英語

Qwen2.5 VL 7B Instruct GGUF

unsloth

Qwen2.5-VL是Qwen家族最新推出的視覺語言模型，具備強大的視覺理解和多模態處理能力，支持圖像、視頻分析和結構化輸出。

Gguf

Qwen_Qwen2.5 VL 7B Instruct GGUF

bartowski

Qwen2.5-VL-7B-Instruct的量化版本，使用llama.cpp進行量化，支持多模態任務，適用於圖文轉文本等應用場景。

Gguf

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖