上海AI实验室开源发布多模态大模型InternVL3.5,采用级联强化学习、动态视觉分辨率路由等创新技术,实现推理能力、部署效率和通用性能全面提升。该模型提供1B至241B全量级版本,刷新开源模型性能标杆,在多任务上达到领先水平。
OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
OpenGVLab
InternVL3.5是开源多模态模型家族的新成员,显著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,达到开源多模态大语言模型的先进水平。
InternVL3_5-38B是开源多模态模型InternVL3.5系列中的一员,在多功能性、推理能力和推理效率方面取得了显著进展。它支持多语言,可应用于图像文本到文本的任务,采用级联强化学习框架和视觉分辨率路由器技术优化性能。
InternVL3.5-14B是InternVL系列的开源多模态模型,显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能,缩小了与商业模型的性能差距。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-1B是InternVL系列的开源多模态模型,参数量为1.1B,包含0.3B视觉参数和0.8B语言参数。该模型显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
InternVL3.5-4B是开源多模态模型系列的中等规模版本,包含4.7亿参数,采用先进的级联强化学习框架和视觉分辨率路由器技术,显著提升了多模态推理能力和效率。
brandonbeiler
这是OpenGVLab/InternVL3_5-8B的fp8动态(w8a8)量化版本,针对vLLM高性能推理进行了优化。采用FP8动态量化技术,在保持视觉理解能力的同时显著减少内存占用并提升推理速度。
这是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8动态量化版本,采用w8a8技术优化,专门针对vLLM进行高性能推理部署。该模型在保持视觉语言理解能力的同时,显著提升了推理速度和内存效率。
这是OpenGVLab/InternVL3_5-30B-A3B的fp8动态(w8a8)量化版本,针对vLLM高性能推理优化,采用FP8动态量化技术,内存占用减少约50%,推理速度显著提升
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUF 是基于 OpenGVLab 的 InternVL3_5-38B 模型通过 llama.cpp 转换而来的 GGUF 量化版本。该模型是一个 38B 参数的多模态视觉语言模型,支持图像和文本的联合理解与生成,采用 Q8_0 量化格式以优化推理效率。
lmstudio-community
这是OpenGVLab的InternVL3_5 14B模型的量化版本,支持图像文本到文本的转换任务,通过量化技术提升了模型运行效率,为相关应用提供了更高效的解决方案。
这是OpenGVLab发布的InternVL3_5 8B模型的GGUF量化版本,专门用于图像文本到文本的转换任务,通过量化技术提供了更高效的推理解决方案。
Koitenshin
这是一个基于InternVL3架构的多模态视觉语言模型,经过量化处理为GGUF格式,支持图像文本到文本的转换,具备多语言能力。
这是一个基于InternVL3-8B微调的去限制版本模型,转换为GGUF格式,支持多语言图像文本到文本任务,适用于更广泛的使用场景。
ConfidentialMind
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-38B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具备强大的多模态感知和推理能力。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-8B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具备强大的多模态感知和推理能力。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。