MobileLLM-600M ist ein von Meta entwickeltes autoregressives Sprachmodell, das eine optimierte Transformer-Architektur verwendet und speziell für ressourcenbeschränkte Geräteanwendungen entwickelt wurde. Das Modell integriert Schlüsseltechnologien wie die SwiGLU-Aktivierungsfunktion, eine Deep-Thin-Architektur, geteilte Einbettungen und gruppierte Query-Attention. MobileLLM-600M erzielte eine signifikante Leistungssteigerung bei Zero-Shot-Inferenzaufgaben im Bereich des Allgemeinwissens und verbesserte die Genauigkeit im Vergleich zu früheren SoTA-Modellen mit 125M/350M Parametern um 2,7% bzw. 4,3%. Das Designkonzept dieses Modells lässt sich auf größere Modelle wie MobileLLM-1B/1.5B skalieren, die ebenfalls SoTA-Ergebnisse erzielten.