Recentemente, a equipe de pesquisa da NVIDIA anunciou o lançamento do Jet-Nemotron, uma nova série de modelos de linguagem (com versões de 2 bilhões e 4 bilhões de parâmetros), cuja velocidade de geração é 53,6 vezes mais rápida que os modelos atuais de linguagem com atenção completa, e sua precisão atinge ou supera a desses modelos. Essa inovação não foi alcançada retrainando os modelos do zero, mas sim por meio de uma nova tecnologia chamada "Pesquisa de Arquitetura Neural Pós" (PostNAS), que transformou os modelos pré-treinados existentes.

image.png

A medida que os modelos de linguagem modernos são amplamente utilizados, como Qwen3, Llama3.2 e Gemma3, esses modelos estabeleceram novos padrões em termos de precisão e flexibilidade, mas seu mecanismo de atenção autônoma de O(n²) causou custos elevados em computação e memória, especialmente ao lidar com tarefas de texto longo, tornando a implantação em larga escala extremamente cara e quase impossível em dispositivos de borda ou dispositivos com limitações de memória. Embora algumas tentativas tenham sido feitas para substituir a arquitetura de Transformer com atenção completa por arquiteturas mais eficientes (como Mamba2, GLA, RWKV, etc.), nunca foi possível ultrapassar a precisão até agora.

O PostNAS, a inovação central do Jet-Nemotron, inclui principalmente os seguintes passos: primeiro, selecionar um modelo de atenção completa avançado (como o Qwen2.5) e congelar suas camadas de MLP (Multi-Layer Perceptron), protegendo assim a capacidade de aprendizado do modelo e reduzindo significativamente os custos de treinamento; em seguida, substituir os módulos de atenção completa, que têm alto custo computacional, pelos módulos lineares de atenção eficientes na hardware chamados JetBlock; por fim, determinar automaticamente as melhores posições dos módulos de atenção completa por meio de treinamento de superrede e busca em feixe, mantendo assim a precisão em tarefas específicas.

Os indicadores de desempenho do Jet-Nemotron são impressionantes: o modelo de 2B alcança resultados equivalentes ou superiores ao Qwen3-1.7B-Base em vários benchmarks e aumenta a taxa de throughput de geração em 47 vezes. Além disso, com um comprimento de contexto de 256K, a velocidade de decodificação aumenta 53,6 vezes, reduzindo o custo de inferência em 98%. Isso traz uma mudança revolucionária para a implantação em dispositivos de borda.

Além disso, o lançamento do Jet-Nemotron significa que as empresas podem obter maior retorno sobre investimento a um custo menor. Para profissionais, o Jet-Nemotron permite transformar modelos existentes sem alterar o pipeline de dados, melhorando assim a capacidade de serviços de IA em tempo real. Para pesquisadores, o PostNAS reduz os custos de inovação nas arquiteturas de modelos de linguagem, acelerando o desenvolvimento da tecnologia de IA.

Projeto: https://github.com/NVlabs/Jet-Nemotron

Principais pontos:  

🌟 O Jet-Nemotron aumenta a velocidade de geração em 53,6 vezes em comparação com os modelos atuais, reduzindo o custo de inferência em 98%.  

💻 A tecnologia PostNAS permite a transformação eficiente de modelos pré-treinados existentes, mantendo a precisão.  

📈 O lançamento do novo modelo permite que empresas e pesquisadores obtenham benefícios duplos em termos de custo e desempenho.