近日,上海 AI 实验室宣布推出书生·万象InternVL2.5模型。这款开源多模态大型语言模型以其卓越的性能,成为首个在多模态理解基准(MMMU)上超过70%准确率的开源模型,与商业模型如GPT-4o和Claude-3.5-Sonnet等的性能相媲美。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
Shanghai-ai-lab
$2
输入tokens/百万
-
输出tokens/百万
8
上下文长度
FriendliAI
InternVideo2.5 是一款基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型(MLLM),构建于 InternVL2.5 之上。
ayeshaishaq
DriveLMM-o1是专为自动驾驶优化的微调大型多模态模型,基于InternVL2.5-8B架构并通过LoRA技术进行适配,利用拼接的多视角图像实现逐步推理。
OpenGVLab
InternVideo2.5 是一个基于 InternVL2.5 构建的视频多模态大语言模型(MLLM),通过长且丰富的上下文(LRC)建模进行了增强,能够感知细粒度细节并捕捉长时态结构。
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
5CD-AI
Vintern-1B-v3.5是基于InternVL2.5-1B微调的多模态大语言模型,专注于越南语文本处理,在OCR和理解越南特色文档方面表现卓越。