上海AI實驗室開源發佈多模態大模型InternVL3.5,採用級聯強化學習、動態視覺分辨率路由等創新技術,實現推理能力、部署效率和通用性能全面提升。該模型提供1B至241B全量級版本,刷新開源模型性能標杆,在多任務上達到領先水平。
OpenGVLab開源發佈了InternVL3系列模型,這標誌着多模態大型語言模型(MLLM)領域迎來了新的里程碑。InternVL3系列包含從1B到78B共7個尺寸的模型,能夠同時處理文字、圖片、視頻等多種信息,展現出卓越的整體性能。
InternVL3開源:7種尺寸覆蓋文、圖、視頻處理,多模態能力擴展至工業圖像分析
OpenGVLab
InternVL3.5-4B是開源多模態模型系列的中等規模版本,包含4.7億參數,採用先進的級聯強化學習框架和視覺分辨率路由器技術,顯著提升了多模態推理能力和效率。
InternVL3.5是開源多模態模型家族的新成員,顯著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,達到開源多模態大語言模型的先進水平。
InternVL3.5-14B是InternVL系列的開源多模態模型,顯著提升了通用性、推理能力和推理效率,支持GUI交互等新功能,縮小了與商業模型的性能差距。
InternVL3.5-4B是開源多模態模型系列中的中等規模版本,在通用性、推理能力和推理效率上取得顯著進展,支持GUI交互等新能力。該模型採用級聯強化學習框架和視覺分辨率路由器技術,實現了高效的多模態理解與推理。
InternVL3.5-1B是InternVL系列的開源多模態模型,參數量為1.1B,包含0.3B視覺參數和0.8B語言參數。該模型顯著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
InternVL3_5-38B是開源多模態模型InternVL3.5系列中的一員,在多功能性、推理能力和推理效率方面取得了顯著進展。它支持多語言,可應用於圖像文本到文本的任務,採用級聯強化學習框架和視覺分辨率路由器技術優化性能。
brandonbeiler
這是OpenGVLab/InternVL3_5-8B的fp8動態(w8a8)量化版本,針對vLLM高性能推理進行了優化。採用FP8動態量化技術,在保持視覺理解能力的同時顯著減少內存佔用並提升推理速度。
這是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8動態量化版本,採用w8a8技術優化,專門針對vLLM進行高性能推理部署。該模型在保持視覺語言理解能力的同時,顯著提升了推理速度和內存效率。
這是OpenGVLab/InternVL3_5-30B-A3B的fp8動態(w8a8)量化版本,針對vLLM高性能推理優化,採用FP8動態量化技術,內存佔用減少約50%,推理速度顯著提升
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUF 是基於 OpenGVLab 的 InternVL3_5-38B 模型通過 llama.cpp 轉換而來的 GGUF 量化版本。該模型是一個 38B 參數的多模態視覺語言模型,支持圖像和文本的聯合理解與生成,採用 Q8_0 量化格式以優化推理效率。
lmstudio-community
這是OpenGVLab的InternVL3_5 14B模型的量化版本,支持圖像文本到文本的轉換任務,通過量化技術提升了模型運行效率,為相關應用提供了更高效的解決方案。
這是OpenGVLab發佈的InternVL3_5 8B模型的GGUF量化版本,專門用於圖像文本到文本的轉換任務,通過量化技術提供了更高效的推理解決方案。
Koitenshin
這是一個基於InternVL3架構的多模態視覺語言模型,經過量化處理為GGUF格式,支持圖像文本到文本的轉換,具備多語言能力。
這是一個基於InternVL3-8B微調的去限制版本模型,轉換為GGUF格式,支持多語言圖像文本到文本任務,適用於更廣泛的使用場景。
ConfidentialMind
這是 OpenGVLab/InternVL3-38B 的 FP8 靜態量化版本,針對使用 vLLM 進行高性能推理進行了優化,在視覺語言任務上實現了約 2 倍的加速,同時精度損失極小。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
InternVL3-38B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的整體性能,具備強大的多模態感知和推理能力。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-8B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的整體性能,具備強大的多模態感知和推理能力。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。