Recentemente, o Grupo Ant oficialmente abriu o código do primeiro framework de raciocínio de modelo de linguagem difusivo de alto desempenho no setor — dInfer. A introdução deste framework não apenas representa uma grande conquista na velocidade de raciocínio dos modelos de linguagem difusivos, mas também marca um passo importante para que esta nova tecnologia avance em direção à aplicação prática.
Em testes de benchmarking mais recentes, a velocidade de raciocínio do dInfer é impressionantemente 10,7 vezes maior do que o framework Fast-dLLM da NVIDIA. Na tarefa de geração de código HumanEval, o dInfer alcançou uma velocidade de 1011 Tokens por segundo em uma única inferência, sendo o primeiro caso na comunidade de código aberto em que a velocidade de raciocínio de modelos de linguagem difusivos supera significativamente os modelos tradicionais autoregressivos. Esses avanços geram grandes expectativas sobre o futuro dos modelos de linguagem difusivos, considerando que podem se tornar uma importante via tecnológica para a inteligência artificial geral (AGI).

O diferencial dos modelos de linguagem difusivos está em tratar a geração de texto como um processo de "recuperação gradual de uma sequência completa a partir de ruído aleatório", possuindo características de alta paralelização, visão global e flexibilidade estrutural. Apesar de seu potencial teórico forte, os dLLM enfrentam limitações na prática devido a altos custos computacionais, falhas no cache KV e descompressão paralela, entre outros desafios. Essas dificuldades fizeram com que a velocidade de raciocínio dos modelos de linguagem difusivos não fosse plenamente explorada, exigindo assim soluções inovadoras.
Para esses desafios, o dInfer foi especialmente projetado para modelos de linguagem difusivos, contendo quatro módulos principais: acesso ao modelo, gerenciador de cache KV, gerenciador de iterações difusivas e estratégias de decodificação. Essa arquitetura modular permite que os desenvolvedores combinem e otimizem os módulos de forma flexível, enquanto realizam avaliações padronizadas em uma plataforma unificada.
Em nós equipados com 8 GPUs NVIDIA H800, o desempenho do dInfer é excelente. Em comparação com o Fast-dLLM, o dInfer atinge uma velocidade média de 681 Tokens por segundo, com resultados semelhantes, enquanto o Fast-dLLM atinge apenas 63,6 Tokens por segundo. Além disso, comparado ao modelo autoregressivo Qwen2.5-3B executado no framework de serviço de raciocínio de ponta da indústria vLLM, o dInfer é 2,5 vezes mais rápido.
O Grupo Ant afirma que a liberação do dInfer é um passo importante para conectar pesquisas avançadas com aplicações industriais. Espera-se que desenvolvedores e pesquisadores de todo o mundo explorem juntos o enorme potencial dos modelos de linguagem difusivos, construindo um ecossistema de IA mais eficiente e aberto.




