Il s'agit d'un modèle linguistique de grande taille pré-entraîné bilingue de 13 milliards de paramètres, prenant en charge l'arabe et l'anglais. Il a été entraîné sur un ensemble de données de 72 milliards de jetons arabes et 279 milliards de jetons anglais/code. Les données arabes ont été itérées pendant 1,6 époque (contre 1 époque pour l'anglais/code), soit un total de 395 milliards de jetons d'entraînement. Ce modèle est basé sur une architecture de décodeur Transformer (GPT-3) utilisant la fonction d'activation non linéaire SwiGLU. Il implémente l'intégration positionnelle ALiBi, permettant une extrapolation à de longues séquences, améliorant ainsi le traitement du contexte et la précision du modèle.