El modelo de visión general GLM-4.1V-Thinking de Zhipu AI se ha lanzado oficialmente como código abierto. Basado en la arquitectura GLM-4V, incorpora un mecanismo de razonamiento en cadena de pensamiento, lo que mejora significativamente la capacidad para tareas cognitivas complejas. Este modelo admite entradas multimodales como imágenes, videos y documentos, y destaca en escenarios diversos como el entendimiento de videos largos, preguntas y respuestas sobre imágenes, resolución de problemas académicos, reconocimiento de texto, interpretación de documentos, Grounding, GUI Agent y generación de código, satisfaciendo así las necesidades de aplicación en cientos de industrias.

GLM-4.1V-9B-Thinking destacó en 28 evaluaciones autorizadas, logrando en 23 de ellas el mejor rendimiento de modelos con 10 mil millones de parámetros, y en 18 de ellas igualó o superó a Qwen-2.5-VL con 72 mil millones de parámetros, incluyendo benchmarks como MMStar, MMMU-Pro, ChartQAPro y OSWorld. Con su tamaño de 9 mil millones de parámetros y una capacidad de inferencia eficiente, puede ejecutarse en una sola tarjeta gráfica 3090 y cuenta con una licencia gratuita para uso comercial, reduciendo significativamente la barrera para los desarrolladores.

Zhipu AI indicó que GLM-4.1V-Thinking optimizó su capacidad de razonamiento transversal mediante técnicas de aprendizaje por refuerzo y muestreo por cursos, mostrando una profundidad de pensamiento y capacidad de resolución de problemas complejos. El modelo ya está disponible en HuggingFace para que los desarrolladores de todo el mundo lo experimenten gratuitamente. La industria considera que este paso impulsará la amplia aplicación de la inteligencia artificial multimodal en educación, investigación y comercio, marcando otro hito en el camino de Zhipu AI hacia la inteligencia artificial general.