Qwen2-VL es un modelo de lenguaje visual de última generación basado en Qwen2, con soporte multilingüe y una potente capacidad de comprensión visual. Puede procesar imágenes de diferentes resoluciones y relaciones de aspecto, comprender videos largos e integrarse en dispositivos como teléfonos móviles y robots para realizar operaciones automáticas. Ha logrado un rendimiento líder a nivel mundial en varias pruebas de referencia de comprensión visual, especialmente en la comprensión de documentos.