Llama est un grand modèle linguistique développé par Meta. Grâce à la quantification, sa taille est réduite, son exécution accélérée, tout en préservant sa qualité et sa sécurité. Ces modèles sont particulièrement adaptés aux appareils mobiles et aux déploiements en périphérie, permettant des inférences rapides sur des appareils aux ressources limitées, avec une consommation mémoire réduite. Le développement du modèle Llama quantifié représente une avancée majeure dans le domaine de l'IA mobile, permettant à un plus grand nombre de développeurs de créer et de déployer des applications IA de haute qualité sans nécessiter de ressources de calcul importantes.