Se trata de un modelo lingüístico grande preentrenado y bilingüe de 13 000 millones de parámetros, compatible con árabe e inglés. Fue entrenado en un conjunto de datos de 72 000 millones de tokens en árabe y 279 000 millones de tokens en inglés/código. Los datos en árabe se entrenaron durante 1,6 épocas (frente a 1 época para inglés/código), sumando un total de 395 000 millones de tokens de entrenamiento. El modelo se basa en una arquitectura de decodificador Transformer (GPT-3) y utiliza la función de activación no lineal SwiGLU. Implementa incrustaciones posicionales ALiBi, lo que permite la extrapolación a longitudes de secuencia largas, ofreciendo un mejor procesamiento de contexto y precisión del modelo.