Ce produit est un modèle linguistique auto-récompensé, entraîné à l'aide d'un LLM jouant le rôle d'arbitre et utilisant des signaux de récompense fournis par le modèle lui-même. Grâce à un entraînement DPO itératif, le modèle améliore non seulement sa capacité à suivre les instructions, mais fournit également des auto-récompenses de haute qualité. Après trois itérations de fine-tuning, ce produit a surpassé de nombreux systèmes existants, dont Claude 2, Gemini Pro et GPT-4 0613, au classement AlpacaEval 2.0. Bien qu'il ne s'agisse que d'une recherche préliminaire, ce travail ouvre la voie à des améliorations continues du modèle sur deux aspects.