Higgs-Llama-3-70B est un modèle entraîné à partir de Meta-Llama-3-70B, spécialement optimisé pour les jeux de rôle, tout en conservant une compétitivité dans l'exécution des instructions et le raisonnement dans des domaines généraux. Ce modèle a été affiné par apprentissage supervisé, combinant des annotations humaines et des paires de préférences construites par un grand modèle linguistique propriétaire, via une optimisation itérative des préférences afin d'aligner le comportement du modèle et de le rapprocher des messages système. Comparé à d'autres modèles de type instruction, Higgs suit plus fidèlement son rôle.