MobileLLM-600M es un modelo de lenguaje autorregresivo desarrollado por Meta, con una arquitectura Transformer optimizada y diseñada para aplicaciones en dispositivos con recursos limitados. Este modelo integra tecnologías clave como la función de activación SwiGLU, una arquitectura delgada y profunda, el uso compartido de incrustaciones y la atención de consultas agrupadas. MobileLLM-600M ha logrado una mejora significativa en el rendimiento en tareas de razonamiento de sentido común de cero ejemplos, con un aumento de la precisión del 2.7%/4.3% en comparación con los modelos SoTA anteriores de 125M/350M. El diseño de este modelo es escalable a modelos más grandes, como MobileLLM-1B/1.5B, obteniendo en ambos casos resultados SoTA.