El departamento de inteligencia artificial de Alibaba lanzó oficialmente hoy una versión compacta de la serie de modelos de lenguaje visual Qwen3-VL, presentando variantes con 4 mil millones y 8 mil millones de parámetros. Este movimiento marca un gran avance en la aplicación de tecnologías avanzadas de inteligencia artificial multimodal en dispositivos periféricos y entornos con recursos limitados.

Salto en el rendimiento, los pequeños modelos compiten con los grandes

Los modelos de 4B y 8B lanzados esta vez ofrecen versiones Instruct y Thinking, y están optimizados para capacidades multimodales clave como razonamiento STEM, preguntas y respuestas visuales (VQA), reconocimiento óptico de caracteres (OCR), comprensión de videos y tareas de agente.

Según los resultados de las pruebas estándar publicadas, estos modelos pequeños destacan en varios categorías, superando a competidores como Gemini2.5Flash Lite y GPT-5Nano. Más notablemente, su rendimiento puede compararse con el modelo Qwen2.5-VL-72B de mayor escala lanzado hace solo seis meses en ciertos campos, demostrando una alta eficiencia de parámetros.

QQ20251015-103538.png

Optimización de recursos, promoviendo la democratización de la IA

El punto destacado de los nuevos modelos es una reducción significativa en el uso de VRAM, lo que les permite ejecutarse directamente en hardware de consumo como portátiles y teléfonos inteligentes. Para mejorar aún más la eficiencia, Alibaba también proporciona una versión cuantificada en FP8, reduciendo aún más el consumo de recursos sin sacrificar las capacidades principales. Como dijo un miembro del equipo Qwen involucrado en el desarrollo: "Los modelos VL pequeños son adecuados para implementaciones y tienen un significado considerable en teléfonos móviles y robots."

Iteración rápida, compartir de forma abierta

El lanzamiento de este modelo compacto continúa con la trayectoria anunciada en septiembre con la serie Qwen3-VL (el modelo principal tiene 235 mil millones de parámetros). Anteriormente, Alibaba había lanzado la variante 30B-A3B a principios de octubre, logrando resultados de prueba comparables con GPT-5Mini y Claude4Sonnet con solo 30 mil millones de parámetros activos. Esta rápida iteración es vista por la industria como una manifestación poderosa de la iniciativa de Alibaba para democratizar la inteligencia artificial de alto rendimiento, especialmente aplicable a sistemas encarnados como robots.

Enlace:

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks