Alibaba ha abierto recientemente el código de su modelo de arquitectura más reciente, Qwen3-Next-80B-A3B, lo que marca un importante avance en el ámbito del contenido generado por inteligencia artificial (AIGC). Este modelo introduce innovaciones en la mecanismo de atención híbrida, los modelos de expertos de alta dispersión (MoE) y los métodos de entrenamiento, demostrando una mejora significativa en el rendimiento.

image.png

El modelo Qwen3-Next tiene un total de 80 mil millones de parámetros, pero activa solo 30 mil millones durante la inferencia, lo que reduce el costo de entrenamiento en un 90% con respecto a su predecesor Qwen3-32B. Además, la eficiencia de la inferencia se ha mejorado 10 veces, especialmente en el procesamiento de textos muy largos (más de 32K). Esto permite que Qwen3-Next sea comparable e incluso supere al modelo principal de Alibaba, Qwen3-235B, y también supera al modelo de pensamiento Gemini-2.5-Flash de Google.

La innovación central del modelo es la arquitectura de expertos híbridos, que combina DeltaNet con puertas de atención. Gracias a este diseño, Qwen3-Next supera las limitaciones de los mecanismos de atención tradicionales en el procesamiento de contextos largos, garantizando velocidad y mejorando la capacidad de aprendizaje contextual. Durante el entrenamiento, se utilizó una estructura MoE de alta dispersión, maximizando así el uso de recursos sin afectar el rendimiento.

Además, Qwen3-Next incorpora un mecanismo de predicción de múltiples tokens, mejorando el desempeño del modelo en la decodificación especulativa. En la fase de preentrenamiento, la eficiencia de Qwen3-Next aumentó significativamente con respecto a Qwen3-32B, con un costo de entrenamiento que representa solo el 9,3%, pero con un mejor rendimiento. En cuanto a la velocidad de inferencia, Qwen3-Next logra un aumento de siete veces en el volumen de procesamiento de textos largos en comparación con Qwen3-32B, manteniendo aún una ventaja de diez veces en contextos más largos.

image.png

Este nuevo modelo de Alibaba no solo ha logrado avances tecnológicos, sino que también ha recibido amplia atención y elogios, especialmente entre desarrolladores e investigadores. Ya sea en términos de innovación tecnológica o competitividad en el mercado, Qwen3-Next marca un avance adicional de Alibaba en el campo de la inteligencia artificial.

Prueba en línea: https://chat.qwen.ai/

Ubicación del código abierto: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

Resumen clave:

🌟 El modelo Qwen3-Next-80B-A3B tiene 80 mil millones de parámetros, el costo de entrenamiento disminuye en un 90% y la eficiencia de la inferencia aumenta 10 veces.

🔍 El nuevo modelo utiliza una arquitectura de expertos híbridos y un mecanismo de predicción de múltiples tokens, mejorando significativamente la capacidad de procesamiento de contexto.

🚀 En cuanto a la velocidad de inferencia, Qwen3-Next destaca en escenarios de texto muy largo, con un aumento del 7 al 10 veces en el volumen de procesamiento en comparación con el modelo anterior.