Em recentes avanços tecnológicos, a NVIDIA, em conjunto com o Instituto de Tecnologia de Massachusetts (MIT) e a Universidade de Hong Kong, lançou um novo framework chamado Fast-dLLM, que aumenta significativamente a velocidade de inferência dos modelos baseados em difusão (Diffusion-based LLMs), atingindo até 27,6 vezes mais rápido. Essa inovação abre novas possibilidades para a aplicação de modelos de linguagem.
Os modelos baseados em difusão são considerados fortes concorrentes dos modelos autoregressivos, utilizando uma mecanismo de atenção bidirecional, o que teoricamente permite a geração simultânea de múltiplos tokens, acelerando assim o processo de decodificação. No entanto, na prática, esses modelos frequentemente não conseguem competir com os modelos autoregressivos em termos de velocidade de inferência, pois cada geração requer o cálculo repetido de todos os estados de atenção, tornando os custos computacionais muito altos. Além disso, durante a decodificação de múltiplos tokens, as dependências entre os tokens podem ser comprometidas, afetando a qualidade da geração e limitando sua aplicação prática.
Para superar esses gargalos, a equipe de pesquisa da NVIDIA introduziu duas inovações principais no framework Fast-dLLM: o mecanismo de cache aproximado KV em blocos e uma estratégia de decodificação paralela com sensibilidade à confiança. O cache KV divide a sequência em blocos, calcula e armazena previamente os valores de ativação de outros blocos, reduzindo redundância computacional; enquanto sua versão DualCache melhora ainda mais a eficiência, aproveitando a alta similaridade entre passos de inferência adjacentes para armazenar prefixos e sufixos de tokens.
A estratégia de decodificação com sensibilidade à confiança seleciona tokens de alta confiança com base em um limiar definido, evitando conflitos de dependência que podem surgir com a amostragem simultânea, garantindo que a qualidade da geração não seja comprometida.
O Fast-dLLM demonstrou desempenho excepcional em várias avaliações de benchmarks. No conjunto de dados GSM8K, o framework alcançou uma aceleração impressionante de 27,6 vezes na geração de 1024 tokens, com uma configuração de 8-shot, obtendo uma precisão de 76,0%; no benchmark MATH, a aceleração foi de 6,5 vezes, com uma precisão de cerca de 39,3%; nos testes HumanEval e MBPP, respectivamente, foram alcançadas acelerações de 3,2 vezes e 7,8 vezes, mantendo uma precisão de 54,3% e próxima ao nível da linha de base.
O Fast-dLLM conseguiu acelerar os processos sem uma queda significativa na precisão, apenas de 1 a 2 pontos percentuais, demonstrando um excelente equilíbrio entre velocidade e qualidade. Esse avanço oferece suporte mais robusto para o uso de modelos baseados em difusão em tarefas reais de geração de linguagem, capacitando-os a competir com modelos autoregressivos e abrindo caminho para aplicações futuras.