LongVA
Ein Langkontext-Transformationsmodell, das Sprache in visuelle Informationen übersetzt.
Normales ProduktBildLangkontextVisuelles Modell
LongVA ist ein Langkontext-Transformationsmodell, das über 2000 Frames oder über 200.000 visuelle Markierungen verarbeiten kann. Es erzielt im Video-MME Benchmark unter den 7B-Modellen führende Ergebnisse. Das Modell wurde mit CUDA 11.8 und A100-SXM-80G getestet und kann über die Hugging Face Plattform schnell gestartet und verwendet werden.
LongVA Neueste Verkehrssituation
Monatliche Gesamtbesuche
485459945
Absprungrate
35.86%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:25