近日,上海 AI 實驗室宣佈推出書生·萬象InternVL2.5模型。這款開源多模態大型語言模型以其卓越的性能,成爲首個在多模態理解基準(MMMU)上超過70%準確率的開源模型,與商業模型如GPT-4o和Claude-3.5-Sonnet等的性能相媲美。
InternVL2.5-MPO系列模型,基於InternVL2.5和混合偏好優化,展現卓越性能。
Shanghai-ai-lab
$2
輸入tokens/百萬
-
輸出tokens/百萬
8
上下文長度
FriendliAI
InternVideo2.5 是一款基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型(MLLM),構建於 InternVL2.5 之上。
ayeshaishaq
DriveLMM-o1是專為自動駕駛優化的微調大型多模態模型,基於InternVL2.5-8B架構並通過LoRA技術進行適配,利用拼接的多視角圖像實現逐步推理。
OpenGVLab
InternVideo2.5 是一個基於 InternVL2.5 構建的視頻多模態大語言模型(MLLM),通過長且豐富的上下文(LRC)建模進行了增強,能夠感知細粒度細節並捕捉長時態結構。
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
5CD-AI
Vintern-1B-v3.5是基於InternVL2.5-1B微調的多模態大語言模型,專注于越南語文本處理,在OCR和理解越南特色文檔方面表現卓越。