Recentemente, a gigante da tecnologia NVIDIA se uniu à Universidade de Massachusetts (MIT) e à Universidade de Hong Kong para lançar um novo framework chamado Fast-dLLM. Essa inovação visa aumentar significativamente a velocidade de inferência dos modelos baseados em difusão (Diffusion-based LLMs), alcançando até 27,6 vezes mais rápido, proporcionando um suporte técnico mais poderoso para as aplicações de inteligência artificial.
Os desafios e oportunidades dos modelos baseados em difusão
Os modelos baseados em difusão são considerados concorrentes robustos dos modelos autoregressivos tradicionais (Autoregressive Models). Eles utilizam mecanismos de atenção bidirecional (Bidirectional Attention Mechanisms) para gerar múltiplos tokens simultaneamente (Multi-token Generation), teoricamente acelerando o processo de decodificação. No entanto, na prática, a velocidade de inferência desses modelos frequentemente não é tão rápida quanto a dos modelos autoregressivos, principalmente devido ao fato de que cada etapa de geração exigir recalcular todos os estados de atenção, resultando em custos computacionais elevados. Além disso, durante a decodificação síncrona de múltiplos tokens, as dependências entre os tokens podem ser facilmente quebradas, afetando a qualidade da geração.
Inovações do framework Fast-dLLM
Para resolver esses problemas, a equipe da NVIDIA desenvolveu o framework Fast-dLLM, introduzindo duas importantes inovações: o mecanismo de cache aproximado KV em blocos e a estratégia de decodificação paralela sensível à confiança.
1. ** O mecanismo de cache aproximado KV em blocos **: Esse mecanismo divide a sequência em vários blocos (Blocks), calcula e armazena previamente os valores de ativação de cada bloco (KV Activations), reutilizando-os nas etapas subsequentes de decodificação. Isso reduz significativamente o cálculo redundante e melhora a eficiência. Sua versão DualCache também armazena tokens anteriores e subsequentes (Prefix and Suffix Tokens), aproveitando a alta similaridade entre passos de inferência adjacentes para melhorar a velocidade de processamento.
2. ** A estratégia de decodificação paralela sensível à confiança **: Essa estratégia seleciona tokens com alto grau de confiança com base em um limiar definido (Confidence Threshold), evitando conflitos de dependência causados pela amostragem síncrona, garantindo assim a qualidade da geração.
Excelentes resultados de desempenho
O Fast-dLLM demonstrou excelentes resultados em várias avaliações de benchmarks. No conjunto de dados GSM8K, quando gerando 1024 tokens, sua configuração de 8-shot alcançou uma aceleração de 27,6 vezes, com uma precisão de 76,0%; no benchmark MATH, a aceleração foi de 6,5 vezes, com uma precisão de cerca de 39,3%; nos testes HumanEval e MBPP, foram alcançadas acelerações de 3,2 vezes e 7,8 vezes, respectivamente, mantendo uma precisão em torno de 54,3% e próxima ao nível baseline. No geral, o Fast-dLLM conseguiu aumentar a velocidade sem uma queda significativa na precisão, com uma diferença de apenas 1 a 2 pontos percentuais, equilibrando bem a velocidade e a qualidade.
Resolvendo os problemas de eficiência de inferência e qualidade de decodificação, o Fast-dLLM torna os modelos baseados em difusão competitivos com os modelos autoregressivos em tarefas reais de geração de linguagem, estabelecendo uma base sólida para futuras aplicações mais amplas. Com a disseminação dessa tecnologia, esperamos ver aplicações práticas da inteligência artificial em mais áreas.
Projeto: https://nvlabs.github.io/Fast-dLLM/