El arquitectura de los modelos de inteligencia artificial está experimentando un profundo cambio. Los modelos de lenguaje de difusión, gracias a su capacidad de generación paralela y razonamiento eficiente, están ganando el foco del sector. El 9 de octubre, el instituto de investigación de IA Radical Numerics presentó oficialmente RND1-Base, el modelo de lenguaje de difusión de código abierto más grande hasta la fecha, con una escala de parámetros de 30B, de los cuales 3B son parámetros activos, utilizando una arquitectura de mezcla de expertos dispersos. Este modelo no solo muestra un buen rendimiento en pruebas básicas, sino que también pone a disposición pesos completos, recetas de entrenamiento y código de razonamiento, con el objetivo de acelerar la investigación en el campo de los modelos de lenguaje de difusión posterior al entrenamiento y al razonamiento.

RND1-Base se basa en el modelo base autoregresivo Qwen3-30BA3B, logrando una transición sin fisuras hacia el paradigma de difusión mediante una simple preentrenamiento continuo. El proceso de conversión utiliza un mecanismo de máscara bidireccional y tasas de aprendizaje específicas por capa para preservar el conocimiento existente, y utiliza lotes grandes de hasta 8M tokens para garantizar estabilidad, finalizando así el preentrenamiento en 500B tokens. Esta solución eficiente evita el desperdicio de recursos derivado del entrenamiento desde cero, demostrando así la innovadora visión de Radical Numerics sobre la reutilización de modelos.

A diferencia del modo secuencial de generación de tokens uno por uno utilizado por los modelos tradicionales de lenguaje autoregresivo, RND1 considera la generación de texto como un proceso similar al de desruido de imágenes, refinando paralelamente toda la secuencia desde el ruido, soportando mecanismos de atención bidireccional. Esto no solo mejora la flexibilidad y controlabilidad de la generación, sino que también reduce significativamente el retardo en el razonamiento, siendo especialmente adecuado para tareas complejas de razonamiento y generación de código.

image.png

En pruebas básicas generales, RND1-Base demuestra una sólida capacidad, superando a modelos anteriores de lenguaje de difusión de código abierto como Dream-7B y LLaDA-8B. Los resultados específicos incluyen un 57,2% en MMLU (comprensión de lenguaje multitarea), un 72,1% en GSM8K (razonamiento matemático) y un 51,3% en MBPP (generación de código). Estos indicadores cubren los campos del razonamiento, STEM y programación, demostrando que el modelo mantiene las ventajas del modelo base autoregresivo mientras logra mejoras en el rendimiento del arquitectura de difusión.

El diseño de mezcla de expertos dispersos de RND1 activa solo 3B parámetros de los 30B totales, optimizando la eficiencia computacional, lo que lo hace adecuado para implementaciones a gran escala. Este modelo aún no ha sido postentrenado, y puede ocurrir repetición ocasional durante la toma de muestras codiciosa, pero el código de código abierto ya integra backends FlashInfer y SGLang, permitiendo iteraciones rápidas de razonamiento.

Radical Numerics se posiciona como un laboratorio de IA de próxima generación, enfocado en construir motores de mejora recursiva. RND1 es el resultado de esta visión, mediante una plataforma de investigación automatizada de IA, permitiendo que los modelos participen en la optimización de la próxima generación de IA. Este equipo está compuesto por investigadores y ingenieros provenientes de instituciones destacadas como DeepMind, Meta, Liquid y Stanford, con el objetivo de permitir que la IA diseñe a la IA, impulsando el avance científico e industrial.

El propósito de la apertura de RND1 es estimular la comunidad a explorar la optimización de razonamiento y el potencial de postentrenamiento en modelos de lenguaje de difusión. Actualmente, la aplicación de los modelos de difusión en el ámbito del lenguaje está pasando de la etapa experimental a la práctica, especialmente mostrando ventajas en tareas de generación de secuencias largas. Se espera que este movimiento estimule más experimentos donde los modelos autoregresivos se conviertan en modelos de difusión, llenando el vacío en el ecosistema de código abierto en modelos de generación eficientes.

Aunque RND1 ocupa una posición líder en tamaño y rendimiento, la capacidad de generalización y el costo de memoria de los modelos de difusión aún requieren una mejora adicional. En el futuro, combinando microajustes multiobjetivo o arquitecturas híbridas, se espera liberar aún más su potencial. Radical Numerics ha abierto posiciones de empleo, invitando a profesionales de la IA a unirse a esta exploración puntera.

Este avance marca un punto importante en la transición de los modelos de lenguaje de difusión de la exploración teórica a la práctica ingenieril. Al abrir un modelo tan grande de difusión, Radical Numerics no solo proporciona una herramienta valiosa a la comunidad de investigación, sino que también abre nuevas posibilidades para la mejora y optimización recursiva de la IA. Con más investigadores involucrados en este campo, los modelos de lenguaje de difusión podrían convertirse en una dirección importante para las arquitecturas de IA de próxima generación.