近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。
prithivMLmods
CodeV是基于Qwen2.5-VL-7B-Instruct微调得到的70亿参数视觉语言模型,通过监督微调(SFT)和基于工具感知策略优化(TAPO)的强化学习(RL)两阶段训练,旨在实现可靠、可解释的视觉推理。它将视觉工具表示为可执行的Python代码,并通过奖励机制确保工具使用与问题证据一致,解决了高准确率下工具调用不相关的问题。
ActIO-UI-7B-RLVR 是由 Uniphore 发布的 70 亿参数视觉语言模型,专门用于计算机界面自动化任务。它基于 Qwen2.5-VL-7B-Instruct,通过监督微调和可验证奖励的强化学习进行优化,在 GUI 导航、元素定位和交互规划等任务上表现出色,在 WARC-Bench 基准测试中达到了开源 7B 模型的领先水平。
AhmedZaky1
DIMI阿拉伯语OCR v2是一款专门针对阿拉伯语文本识别优化的光学字符识别模型,基于Qwen2.5-VL-7B-Instruct微调开发,在变音符密集文本处理方面相比v1版本有显著改进
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
TIGER-Lab
本项目基于Qwen2.5-VL-7B-Instruct模型,专注于视觉问答任务,能够精准回答图像相关问题,具备较高的准确性和相关性。这是一个多模态视觉语言模型,支持图像理解和基于图像的问答交互。
TencentARC
ARC-Qwen-Video-7B是腾讯ARC实验室开发的用于理解现实世界短视频的多模态模型,基于Qwen2.5-VL-7B-Instruct构建,支持音视频同步分析和理解。
Qwen2.5-VL-7B-Instruct是阿里巴巴通义千问团队开发的多模态视觉语言模型,基于70亿参数规模,专门针对视觉问答任务进行优化训练。该模型能够理解和分析图像内容,并生成准确的自然语言回答。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,采用优化的Transformer架构,支持多模态输入(文本和图像),适用于多种AI应用场景。该模型通过TensorRT Model Optimizer进行FP4量化,在NVIDIA GPU上提供高效的推理性能。
这是基于Qwen2.5-VL-7B-Instruct微调的FP8量化版本OCR模型,专门用于文档图像文本识别,支持高效的大规模文档处理。
chatpig
Qwen2.5-VL-7B-IT-GGUF是一个强大的多模态模型,支持文本和图像到文本的生成任务,具备文本编码能力,并与多种工具兼容。
mradermacher
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
Qwen2.5-VL-7B-Meteorology的量化版本,适用于气象、气候等领域的图像文本处理任务,能在不同硬件条件下高效运行。
Qwen2.5-VL-7B-Meteorology 的量化版本,适用于气象相关的图像文本处理任务。
mobiuslabsgmbh
这是一个经过A8W8量化的多模态大语言模型,基于Qwen2.5-VL-7B-Instruct,支持视觉和语言任务。
AntResearchNLP
ViLaSR-7B是基于Qwen2.5-VL-7B-Instruct构建的视觉语言模型,专门用于增强空间推理能力。通过交织思维和视觉绘图的方法,该模型在图像文本到文本转换任务中表现出色,能够更好地理解和处理空间关系信息。
inclusionAI
ViLaSR-7B是一个基于Qwen2.5-VL-7B-Instruct构建的视觉语言模型,专门针对多模态场景下的图像与文本交互及空间推理问题进行了优化,通过交织思考和视觉绘图的方法增强空间推理能力。
PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型,采用好奇心驱动强化学习训练,专注于图像文本到文本的任务。