InternVL ist das derzeit größte Open-Source-Grundmodell für visuelle Wahrnehmung mit 14 Milliarden Parametern. Es wurde durch Erweiterung des ViT-Modells auf 6 Milliarden Parameter und Ausrichtung mit Sprachmodellen geschaffen. Es erzielt in einer Vielzahl von Aufgaben, darunter visuelle Wahrnehmung, crossmodale Suche und multimodaler Dialog, 32 State-of-the-Art-Ergebnisse.