MiniGPT4-Video es un modelo multimodal de gran escala diseñado para la comprensión de video. Puede procesar datos visuales temporales y de texto, generar títulos y eslóganes, y es adecuado para preguntas y respuestas sobre videos. Basado en MiniGPT-v2 y combinado con el backbone visual EVA-CLIP, se entrenó en múltiples etapas, incluyendo un pre-entrenamiento a gran escala de video-texto y un ajuste fino para preguntas y respuestas sobre videos. Ha logrado mejoras significativas en los benchmarks MSVD, MSRVTT, TGIF y TVQA. Precio desconocido.