OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。
一款AI视觉语言模型,提供图像分析和描述服务。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
InternVL3.5是开源多模态模型家族的新成员,显著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,达到开源多模态大语言模型的先进水平。
InternVL3_5-38B是开源多模态模型InternVL3.5系列中的一员,在多功能性、推理能力和推理效率方面取得了显著进展。它支持多语言,可应用于图像文本到文本的任务,采用级联强化学习框架和视觉分辨率路由器技术优化性能。
InternVL3.5-14B是InternVL系列的开源多模态模型,显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能,缩小了与商业模型的性能差距。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-4B是开源多模态模型系列的中等规模版本,包含4.7亿参数,采用先进的级联强化学习框架和视觉分辨率路由器技术,显著提升了多模态推理能力和效率。
InternVL3.5-1B是InternVL系列的开源多模态模型,参数量为1.1B,包含0.3B视觉参数和0.8B语言参数。该模型显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
brandonbeiler
这是OpenGVLab/InternVL3_5-8B的fp8动态(w8a8)量化版本,针对vLLM高性能推理进行了优化。采用FP8动态量化技术,在保持视觉理解能力的同时显著减少内存占用并提升推理速度。
这是OpenGVLab/InternVL3_5-30B-A3B的fp8动态(w8a8)量化版本,针对vLLM高性能推理优化,采用FP8动态量化技术,内存占用减少约50%,推理速度显著提升
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUF 是基于 OpenGVLab 的 InternVL3_5-38B 模型通过 llama.cpp 转换而来的 GGUF 量化版本。该模型是一个 38B 参数的多模态视觉语言模型,支持图像和文本的联合理解与生成,采用 Q8_0 量化格式以优化推理效率。
lmstudio-community
这是OpenGVLab的InternVL3_5 14B模型的量化版本,支持图像文本到文本的转换任务,通过量化技术提升了模型运行效率,为相关应用提供了更高效的解决方案。
这是OpenGVLab发布的InternVL3_5 8B模型的GGUF量化版本,专门用于图像文本到文本的转换任务,通过量化技术提供了更高效的推理解决方案。
ConfidentialMind
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型,专注于视频内容理解和描述生成。
这是一个已发布在模型中心的Transformers模型,具体功能和用途待补充。
这是一个发布在Hub上的Transformers模型,具体功能和用途待补充。
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
InternVL3-38B是一个先进的多模态大语言模型(MLLM),在多模态感知和推理能力上有显著提升,支持工具使用、GUI代理、工业图像分析、3D视觉感知等领域。
InternVL3-14B是一个强大的多模态大语言模型,在多模态感知和推理能力上表现卓越,支持图像、文本、视频等多种输入。