Une architecture MoE efficace redéfinit l'IA au bord du réseau. L'LFM2-8B-A1B, premier modèle à base de Mixture-of-Experts (MoE) de la série LFM2 de Liquid AI, possède un nombre total de paramètres de 8,3 milliards, mais active seulement environ 1,5 milliard de paramètres par token. Cette mécanique d'activation rare permet de maintenir une grande capacité de représentation tout en réduisant significativement la charge de calcul, ce qui le rend adapté aux scénarios d'appareils à ressources limitées. Contrairement aux modèles MoE traditionnels en cloud, cette conception est optimisée pour les interactions en temps réel et remet en question la perception dominante selon laquelle les MoE de petite taille ne sont pas efficaces.

image.png

Le modèle repose sur une architecture principale hybride LFM2, comprenant 18 blocs de convolution courte avec un commutateur et 6 blocs d'attention GQA (Groupe de requêtes). À l'exception des deux premières couches, qui restent denses pour assurer la stabilité, les autres couches intègrent toutes un réseau feedforward MoE à faible densité. Chaque couche dispose de 32 experts, n'activant que les 4 meilleurs, et utilise un routeur sigmoid normalisé combiné à un biais adaptatif pour équilibrer la charge. Il prend en charge une longueur de contexte de 32K et est compatible avec plusieurs langues, notamment l'anglais, l'arabe, le chinois, le français, l'allemand, le japonais, le coréen et l'espagnol.

Entraînement et performances : Une capacité de 3-4 milliards de paramètres forgée par 12T de tokens. L'LFM2-8B-A1B a été entraîné sur environ 12T de tokens, incluant une distribution de 55% d'anglais, 25% de multilingue et 20% de données de code. Ensuite, il a été post-entraîné avec Liquid Preference Alignment (fusion DPO/APO-Zero avec normalisation de longueur), utilisant une précision mixte BF16/FP8, améliorant ainsi l'efficacité d'entraînement de plus de trois fois.

image.png

Dans les tests standards, ce modèle démontre une force supérieure à celle de ses concurrents de taille similaire :

  • Connaissance et suivi d'instructions : score MMLU-Pro de 37,4 (une augmentation de 11,5 par rapport à LFM2-2,6B), IFEval 77,6, Multi-IF 58,2.
  • Compétences mathématiques : GSM8K 84,4, GSMPlus 64,8, MATH500 74,2.
  • Traitement multilingue : MGSM 72,4, MMMLU 55,3.
  • Code et rédaction : HumanEval+ 69,5, LiveCodeBench v6 21,0, EQ-Bench 44,2.

En général, sa qualité de sortie est comparable à celle d'un modèle dense de 3-4 milliards de paramètres, se distinguant particulièrement dans les tâches telles que les dialogues multi-tours, la création littéraire, la génération renforcée par RAG et l'utilisation d'outils. Déploiement et intégration : accélération de 5 fois, compatibilité avec les cadres principaux. L'LFM2-8B-A1B affiche une vitesse de raisonnement significativement supérieure sur CPU et GPU.

Sur des appareils tels que l'AMD Ryzen AI9HX370 et le Galaxy S24 Ultra de Samsung, en utilisant une quantification int4 et une activation dynamique int8 avec un noyau MoE personnalisé XNNPACK, sa capacité de décodage est jusqu'à 5 fois plus rapide que celle de Qwen3-1,7B ou IBM Granite4,0. Sur le côté GPU, l'intégration de vLLM prend en charge FlashInfer et CUDA-graph compilation, permettant une exécution efficace pour les demandes individuelles et le traitement par lots en ligne.

Les variantes quantifiées ont été optimisées pour les smartphones, tablettes et ordinateurs portables haut de gamme : Q4_0 environ 4,7 Go, F16 environ 16,7 Go. Les cadres pris en charge incluent llama.cpp (nécessite une version b6709+ prenant en charge lfm2moe), ExecuTorch (CPU mobile/intégré) et vLLM (GPU). De plus, des fichiers quantifiés GGUF sur Hugging Face et des cahiers de micro-formation Colab sont fournis, facilitant ainsi le démarrage rapide des développeurs. Le modèle est déjà disponible pour tests sur Liquid Playground.

Ouverture et impact : promotion de l'égalité d'accès à l'IA sur appareil. L'LFM2-8B-A1B est publié sous la licence LFM Open License v1.0 (basée sur Apache2.0), et les poids et détails techniques sont désormais disponibles sur Hugging Face (LiquidAI/LFM2-8B-A1B). Cette publication réduit non seulement le seuil d'implémentation de l'IA, mais apporte également une nouvelle impulsion au calcul en périphérie - de la conversation en temps réel protégeant la vie privée à systèmes intelligents embarqués, tous peuvent en bénéficier. Point de vue d'AIbase : face à la hausse des coûts de l'IA en nuage, des modèles comme l'LFM2-8B-A1B accélèrent tendance de "déploiement de l'IA vers le bord".

Projet : https://huggingface.co/LiquidAI/LFM2-8B-A1B