Arquiteturas de modelos de IA estão passando por uma transformação profunda. Modelos de linguagem de difusão, com sua capacidade de geração paralela e raciocínio eficiente, estão se tornando o foco da indústria. Em 9 de outubro, o instituto de pesquisa de IA Radical Numerics lançou oficialmente o RND1-Base, que é o maior modelo de linguagem de difusão de código aberto até agora, com 30B de parâmetros, dos quais 3B são ativos, utilizando uma arquitetura de mistura de especialistas esparsos. O modelo não apenas se destacou em testes de referência, mas também disponibilizou pesos completos, fórmulas de treinamento e código de raciocínio, visando acelerar a pesquisa sobre treinamento posterior e raciocínio em modelos de linguagem de difusão.

O RND1-Base baseia-se no modelo base autoregressivo Qwen3-30BA3B e realizou uma transição suave para o paradigma de difusão por meio de pré-treinamento contínuo simples. O processo de conversão utilizou mecanismos de máscara bidirecional e taxas de aprendizado específicas por camada para preservar o conhecimento existente, e treinamento com lotes grandes de até 8M marcos garantiu estabilidade, concluindo o pré-treinamento em 500B marcos. Essa solução eficiente evitou o desperdício de recursos associado ao treinamento do zero, demonstrando a abordagem inovadora da Radical Numerics em reutilização de modelos.

Diferente dos modelos tradicionais de linguagem autoregressivos, que geram tokens sequencialmente, o RND1 considera a geração de texto como um processo semelhante à remoção de ruído em imagens, refinando toda a sequência simultaneamente a partir do ruído, suportando mecanismos de atenção bidirecional. Isso não apenas aumentou a flexibilidade e o controle na geração, mas também reduziu significativamente o atraso no raciocínio, sendo especialmente adequado para tarefas complexas de raciocínio e geração de código.

image.png

Em testes de referência gerais, o RND1-Base demonstrou força significativa, superando modelos anteriores de linguagem de difusão de código aberto como Dream-7B e LLaDA-8B. Os resultados incluem 57,2% no MMLU, compreensão linguística multivariável, 72,1% no GSM8K, raciocínio matemático e 51,3% no MBPP, geração de código. Esses indicadores abrangem áreas de raciocínio, ciências exatas e programação, provando que o modelo mantém as vantagens do modelo base autoregressivo, enquanto realiza melhorias de desempenho na arquitetura de difusão.

A designação de mistura de especialistas esparsos do RND1 ativa apenas 3B parâmetros dos 30B totais, otimizando a eficiência computacional, adequado para implantações em larga escala. O modelo ainda não foi submetido a treinamento posterior, podendo ocasionalmente apresentar repetições durante a amostragem gananciosa, mas o código de código aberto já integra os backends FlashInfer e SGLang, suportando iterações rápidas de raciocínio.

A Radical Numerics se posiciona como o laboratório de IA da próxima geração, focando na construção de motores de melhoria recursiva. O RND1 é o produto dessa visão, permitindo que os modelos participem da otimização da próxima geração de IA por meio de plataformas automatizadas de pesquisa de IA. O time é composto por pesquisadores e engenheiros de instituições renomadas como DeepMind, Meta, Liquid e Stanford, com o objetivo de permitir que a IA projete automaticamente a própria IA, acelerando descobertas científicas e industriais.

O objetivo do lançamento aberto do RND1 é estimular a comunidade a explorar a otimização de raciocínio e potencial de treinamento posterior em modelos de linguagem de difusão. Atualmente, a aplicação de modelos de difusão na área de linguagem está se movendo da fase experimental para a prática, especialmente em tarefas de geração paralela de sequências longas. A indústria espera que esse movimento estimule mais experimentos de conversão de modelos autoregressivos para modelos de difusão, preenchendo lacunas na ecologia de código aberto em modelos de geração eficientes.

Ainda que o RND1 esteja em posição de liderança em escala e desempenho, a capacidade de generalização e o consumo de memória dos modelos de difusão ainda requerem otimizações adicionais. Combinado com microajuste de múltiplos objetivos ou arquiteturas híbridas no futuro, é possível liberar ainda mais seu potencial. A Radical Numerics já abriu vagas, convidando profissionais de IA a se juntarem a essa exploração avançada.