MobileLLM-600M est un modèle linguistique autorégressif développé par Meta, basé sur une architecture Transformer optimisée et conçu pour les applications embarquées aux ressources limitées. Ce modèle intègre des technologies clés telles que la fonction d'activation SwiGLU, une architecture profonde et fine, le partage d'embeddings et l'attention d'interrogation groupée. MobileLLM-600M a montré une amélioration significative des performances sur les tâches de raisonnement de bon sens à zéro-shot, avec une augmentation de précision de 2,7 % et 4,3 % respectivement par rapport aux modèles SoTA précédents de 125M/350M. Le concept de conception de ce modèle est extensible à des modèles plus importants, tels que MobileLLM-1B/1.5B, qui ont tous deux obtenu des résultats SoTA.