LongVA
Modelo de transformación de contexto largo de lenguaje a visión
Producto ComúnImagenContexto largoModelo visual
LongVA es un modelo de transformación de contexto largo capaz de procesar más de 2000 fotogramas o más de 200.000 marcas visuales. Su rendimiento en Video-MME lidera entre los modelos de 7B. El modelo se probó con CUDA 11.8 y A100-SXM-80G, y se puede iniciar y utilizar rápidamente a través de la plataforma Hugging Face.
LongVA Situación del tráfico más reciente
Total de visitas mensuales
485459945
Tasa de rebote
35.86%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:25