A arquitetura MoE eficiente redefiniu a AILiquid AI. O LFM2-8B-A1B é o primeiro modelo da série LFM2 que utiliza uma arquitetura de mistura de especialistas (Mixture-of-Experts, MoE), com um total de 8,3B parâmetros, mas ativa apenas cerca de 1,5B parâmetros por token. Essa mecanismo de ativação esparsa reduz significativamente a carga computacional, mantendo ao mesmo tempo uma alta capacidade de representação, tornando-o adequado para cenários em dispositivos com recursos limitados. Diferente dos modelos MoE tradicionais na nuvem, esse design foi otimizado para interações em tempo real, desafiando a percepção do setor de que "pequenos modelos MoE não são eficientes".
O modelo baseia-se na arquitetura principal LFM2, incluindo 18 blocos de convolução curta com gate e 6 blocos de atenção com consulta agrupada (GQA). Além das duas primeiras camadas, que permanecem densas para garantir estabilidade, as demais camadas integram uma rede feedforward MoE esparsa. Cada camada possui 32 especialistas, ativando apenas os 4 melhores especialistas, combinando um roteador sigmoidal normalizado com viés adaptativo, para alcançar equilíbrio na carga. Suporta comprimento de contexto de 32K e é compatível com vários idiomas, como inglês, árabe, chinês, francês, alemão, japonês, coreano e espanhol.
Treinamento e desempenho: capacidade de 3-4B com 12T tokens. O LFM2-8B-A1B foi pré-treinado com aproximadamente 12T tokens, incluindo distribuição de dados de 55% em inglês, 25% multilíngue e 20% de código. Em seguida, foi pós-treinado usando Liquid Preference Alignment (DPO/APO-Zero com normalização de comprimento), utilizando precisão mista BF16/FP8, aumentando a eficiência de treinamento em mais de 3 vezes.
No teste de benchmark, o modelo demonstrou força superior aos concorrentes de tamanho semelhante:
- Conhecimento e seguimento de instruções: pontuação MMLU-Pro de 37,4 (aumento de 11,5 em relação ao LFM2-2.6B), IFEval 77,6, Multi-IF 58,2.
- Habilidades matemáticas: GSM8K 84,4, GSMPlus 64,8, MATH500 74,2.
- Processamento multilíngue: MGSM 72,4, MMMLU 55,3.
- Codificação e escrita: HumanEval+ 69,5, LiveCodeBench v6 21,0, EQ-Bench 44,2.
Em geral, sua qualidade de saída é comparável a modelos densos de 3-4B, destacando-se em tarefas como conversas em múltiplas rodadas, escrita criativa, geração com reforço de recuperação e chamada de ferramentas. Implantação e integração: aceleração de 5 vezes, compatível com frameworks principais. O LFM2-8B-A1B tem velocidade de inferência significativamente superior no CPU e GPU.
Em dispositivos como AMD Ryzen AI9HX370 e Samsung Galaxy S24 Ultra, usando quantização int4 e ativação dinâmica int8 com núcleo MoE personalizado XNNPACK, sua taxa de decodificação é até 5 vezes mais rápida do que Qwen3-1.7B e IBM Granite4.0. No lado do GPU, a integração com vLLM suporta FlashInfer e compilação CUDA-graph, permitindo operações eficientes em solicitações únicas e processamento em lote online.
As variantes de quantização foram otimizadas para smartphones, tablets e notebooks de alto desempenho: Q4_0 é de aproximadamente 4,7GB, F16 é de aproximadamente 16,7GB. Suporte a frameworks inclui llama.cpp (requer versão b6709+ para suportar lfm2moe), ExecuTorch (CPU móvel/embedded) e vLLM (GPU). Além disso, fornece arquivos de quantização GGUF no Hugging Face e cadernos de fine-tuning no Colab, facilitando o início rápido para desenvolvedores. O modelo está disponível para testes no Liquid Playground.
Open-source e impacto: promovendo a acessibilidade da IA nos dispositivos. O LFM2-8B-A1B é open-source sob a licença LFM Open License v1.0 (baseada em Apache2.0), com pesos e detalhes técnicos já carregados no Hugging Face (LiquidAI/LFM2-8B-A1B). Essa publicação não apenas reduz a barreira de implantação de IA, mas também traz nova vitalidade para o cálculo de borda - desde chats em tempo real com proteção de privacidade até sistemas inteligentes embutidos, todos podem se beneficiar. Visão da AIbase: em um momento em que os custos de IA na nuvem estão subindo, modelos eficientes como o LFM2-8B-A1B estão acelerando a tendência de "descida da IA".
Projeto: https://huggingface.co/LiquidAI/LFM2-8B-A1B