En el campo de los modelos de lenguaje de rápido desarrollo, investigadores y organizaciones enfrentan numerosos desafíos. Estos desafíos incluyen mejorar la capacidad de razonamiento, ofrecer un sólido soporte multilingüe y gestionar eficazmente tareas abiertas complejas. Si bien los modelos más pequeños suelen ser más accesibles y económicos, a menudo su rendimiento es inferior al de los modelos más grandes. Por lo tanto, el desarrollo de modelos de tamaño medio que equilibren eficazmente la eficiencia computacional con una sólida capacidad de razonamiento y seguimiento de instrucciones se ha convertido en una tendencia actual.

Recientemente, la Universidad Tsinghua publicó GLM4, particularmente su variante GLM-Z1-32B-0414, que aborda eficazmente estos desafíos. GLM4 se entrenó en un conjunto de datos masivo de 15 billones de tokens, con el objetivo de proporcionar una capacidad multilingüe fiable e introduciendo una innovadora estrategia de razonamiento llamada "modo de pensamiento".

Este lanzamiento coloca a GLM4 junto a otros modelos conocidos como DeepSeek Distill, QwQ y O1-mini, y se distribuye bajo la popular licencia MIT. Cabe destacar que, a pesar de tener 3.200 millones de parámetros, GLM4 muestra un rendimiento en las pruebas de referencia de razonamiento comparable al de modelos mucho más grandes, como GPT-4o y DeepSeek-V3, que cuentan con hasta 671.000 millones de parámetros.

Desde una perspectiva técnica, GLM-Z1-32B-0414 utiliza datos de entrenamiento de alta calidad, incluyendo tareas de razonamiento generadas sintéticamente, para mejorar su capacidad de análisis. El modelo integra técnicas avanzadas como el rechazo de muestreo y el aprendizaje por refuerzo (RL) para mejorar su rendimiento en tareas basadas en agentes, codificación, llamadas a funciones y tareas de preguntas y respuestas impulsadas por búsqueda.

QQ_1744679226588.png

Además, su variante "modelo de razonamiento profundo" está optimizada específicamente para tareas complejas de matemáticas, lógica y codificación mediante la combinación de un método de arranque en frío con un entrenamiento RL prolongado. Durante el entrenamiento, también se empleó un mecanismo de retroalimentación de clasificación por pares para mejorar el razonamiento general del modelo.

Una variante avanzada, GLM-Z1-Rumination-32B-0414, introduce un nuevo método llamado "reflexión", que permite al modelo realizar un razonamiento reflexivo más prolongado para abordar problemas complejos y abiertos, como el análisis de ciudades impulsado por IA. Esta variante combina herramientas de búsqueda avanzadas con aprendizaje por refuerzo multiobjetivo, mejorando significativamente su utilidad en tareas intensivas en investigación y escenarios de recuperación complejos. Para satisfacer diferentes necesidades, la versión GLM-Z1-9B-0414, con sus 9.000 millones de parámetros, demuestra una sólida capacidad de razonamiento matemático y general, mostrando la utilidad de los modelos de menor escala.

Los datos de rendimiento de las evaluaciones comparativas destacan las ventajas de la serie GLM4. En particular, GLM-4-32B-0414 muestra un sólido rendimiento en varias pruebas de referencia en comparación con modelos como GPT-4o, DeepSeek-V3 y Qwen2.5-Max. En el punto de referencia de seguimiento de instrucciones IFEval, GLM4 obtuvo una alta puntuación de 87,6. En TAU-Bench, un punto de referencia de automatización de tareas como la venta al por menor (68,7) y la aviación (51,2), GLM4 también obtuvo buenos resultados. En las tareas de preguntas y respuestas mejoradas con búsqueda evaluadas mediante SimpleQA, el modelo obtuvo una puntuación de 88,1.

Además, GLM4 obtuvo una puntuación general de 69,6 en las tareas de llamadas a funciones del punto de referencia BFCL-v3, casi a la par con el rendimiento de GPT-4o. En escenarios de corrección de código real probados mediante el marco Moatless, GLM4 tuvo una tasa de éxito del 33,8%, lo que destaca su valor práctico.

GLM4 demuestra el potencial como una serie de modelos de lenguaje efectivos, logrando cerrar la brecha de rendimiento entre los modelos pequeños y accesibles y los modelos más grandes tradicionales. La serie GLM-Z1, especialmente la variante de 32B, ejemplifica este enfoque equilibrado al proporcionar una sólida capacidad de razonamiento mientras mantiene la eficiencia computacional. Gracias a su licencia MIT permisiva, GLM4 se posiciona como una herramienta importante para soluciones de IA de alto rendimiento en investigación y aplicaciones empresariales, sin los enormes costes computacionales asociados a los modelos grandes tradicionales.

huggingface:https://huggingface.co/THUDM/GLM-Z1-32B-0414

Puntos clave:

- 🌍 GLM4 es un modelo de lenguaje de 3.200 millones de parámetros publicado por la Universidad Tsinghua, con una potente capacidad multilingüe y de razonamiento.

- 📊 El modelo presenta un excelente rendimiento en varias pruebas de referencia, especialmente en el seguimiento de instrucciones y la automatización de tareas, mostrando un rendimiento comparable al de modelos más grandes.

- 🚀 GLM4, gracias a su licencia MIT, facilita el acceso a soluciones de IA de alto rendimiento, siendo adecuado para la investigación y las aplicaciones empresariales.