Recentemente, os Qafind Labs lançaram seu mais recente modelo, o ChatDLM, uma inovação que gerou grande interesse no campo da inteligência artificial. O ChatDLM é o primeiro modelo a integrar profundamente a "Difusão por Blocos (Block Diffusion)" e o "Mistura de Especialistas (MoE)". Ele atinge uma velocidade de inferência incrível de 2.800 tokens/s em GPU, suportando uma janela de contexto extremamente ampla de 131.072 tokens, abrindo assim uma nova era para a geração de documentos e conversas em tempo real.
O principal trunfo do ChatDLM reside em sua arquitetura técnica única. Este modelo, com 7 bilhões de parâmetros, utiliza a técnica de difusão por blocos para agrupar as entradas em blocos, combinando a difusão espacial e um mecanismo de atenção inter-blocos, o que melhora consideravelmente a velocidade de processamento. Simultaneamente, o ChatDLM integra a técnica de mistura de especialistas (MoE), configurando 32 a 64 especialistas e selecionando 2 especialistas a cada processamento. Este mecanismo flexível otimiza ainda mais o desempenho do modelo.
Para suportar um contexto extremamente amplo, o ChatDLM utiliza a otimização RoPE e uma técnica de cache hierárquica, reforçando consideravelmente a capacidade de memória do modelo. Em termos de otimização de inferência, o ChatDLM, graças à parada antecipada dinâmica, à precisão mista BF16 e ao particionamento ZeRO, permite uma fácil expansão em várias GPUs, melhorando assim a eficiência e a escalabilidade do modelo.
Nos testes de desempenho, o ChatDLM demonstrou excelentes resultados em GPUs A100, atingindo uma taxa de 2.800 tokens/s, com um comprimento de contexto de 131.072 tokens e um número médio de iterações entre 12 e 25. Nos testes HumanEval (0-shot), o ChatDLM atingiu uma precisão de 92,0%, de 84,2% nos testes Fill-in-the-Middle e de 83,9% nos testes ARC-E (0-shot). Esses dados demonstram seu desempenho excepcional.
No futuro, os Qafind Labs pretendem integrar ao ChatDLM tecnologias mais avançadas, incluindo a iteração adaptativa (Adaptive Iteration), a integração da atenção gráfica (Graph-Attention) e a difusão multimodal (Multimodal Diffusion), para melhorar ainda mais a precisão e o alcance do modelo.
Endereço de teste: https://www.chatdlm.cn