近日,小米公司研發的MiMo-VL多模態模型接過MiMo-7B的接力棒,在多個領域展現出了強大的實力。該模型在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標杆多模態模型Qwen2.5-VL-7B,在GUI Grounding任務上的表現更是可與專用模型相媲美,爲Agent時代的到來做好了準備。
AhmedZaky1
DIMI阿拉伯語OCR v2是一款專門針對阿拉伯語文本識別優化的光學字符識別模型,基於Qwen2.5-VL-7B-Instruct微調開發,在變音符密集文本處理方面相比v1版本有顯著改進
allenai
olmOCR-2-7B-1025的FP8量化版本,基於Qwen2.5-VL-7B-Instruct微調而來,專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。
OpenGVLab
VideoChat-R1_5-7B是基於Qwen2.5-VL-7B-Instruct構建的視頻文本交互模型,支持多模態任務,特別擅長視頻問答功能。該模型通過強化微調增強時空感知能力,並採用迭代感知機制來強化多模態推理。
TIGER-Lab
本項目基於Qwen2.5-VL-7B-Instruct模型,專注於視覺問答任務,能夠精準回答圖像相關問題,具備較高的準確性和相關性。這是一個多模態視覺語言模型,支持圖像理解和基於圖像的問答交互。
TencentARC
ARC-Qwen-Video-7B是騰訊ARC實驗室開發的用於理解現實世界短視頻的多模態模型,基於Qwen2.5-VL-7B-Instruct構建,支持音視頻同步分析和理解。
Qwen2.5-VL-7B-Instruct是阿里巴巴通義千問團隊開發的多模態視覺語言模型,基於70億參數規模,專門針對視覺問答任務進行優化訓練。該模型能夠理解和分析圖像內容,並生成準確的自然語言回答。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,採用優化的Transformer架構,支持多模態輸入(文本和圖像),適用於多種AI應用場景。該模型通過TensorRT Model Optimizer進行FP4量化,在NVIDIA GPU上提供高效的推理性能。
這是基於Qwen2.5-VL-7B-Instruct微調的FP8量化版本OCR模型,專門用於文檔圖像文本識別,支持高效的大規模文檔處理。
chatpig
Qwen2.5-VL-7B-IT-GGUF是一個強大的多模態模型,支持文本和圖像到文本的生成任務,具備文本編碼能力,並與多種工具兼容。
mradermacher
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多語言圖像描述任務。
這是一個基於Qwen2.5-VL-7B模型的靜態量化版本,專注於圖像描述生成任務,支持多種語言。
olmOCR-7B-0725-FP8是基於Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225數據集微調後量化為FP8版本的文檔OCR模型。
Qwen2.5-VL-7B-Meteorology的量化版本,適用於氣象、氣候等領域的圖像文本處理任務,能在不同硬件條件下高效運行。
Qwen2.5-VL-7B-Meteorology 的量化版本,適用於氣象相關的圖像文本處理任務。
mobiuslabsgmbh
這是一個經過A8W8量化的多模態大語言模型,基於Qwen2.5-VL-7B-Instruct,支持視覺和語言任務。
AntResearchNLP
ViLaSR-7B是基於Qwen2.5-VL-7B-Instruct構建的視覺語言模型,專門用於增強空間推理能力。通過交織思維和視覺繪圖的方法,該模型在圖像文本到文本轉換任務中表現出色,能夠更好地理解和處理空間關係信息。
inclusionAI
ViLaSR-7B是一個基於Qwen2.5-VL-7B-Instruct構建的視覺語言模型,專門針對多模態場景下的圖像與文本交互及空間推理問題進行了優化,通過交織思考和視覺繪圖的方法增強空間推理能力。
PixelReasoner是一個基於Qwen2.5-VL-7B-Instruct的視覺語言模型,採用好奇心驅動強化學習訓練,專注於圖像文本到文本的任務。
unsloth
Qwen2.5-VL是Qwen家族最新推出的視覺語言模型,具備強大的視覺理解和多模態處理能力,支持圖像、視頻分析和結構化輸出。
bartowski
Qwen2.5-VL-7B-Instruct的量化版本,使用llama.cpp進行量化,支持多模態任務,適用於圖文轉文本等應用場景。