CSGO est un modèle de génération d'images à partir de texte basé sur la synthèse de style de contenu. Il génère et nettoie automatiquement des triplets de données stylisées via un pipeline de construction de données, créant ainsi IMAGStyle, le premier jeu de données à grande échelle pour le transfert de style, comprenant 210 000 triplets d'images. Le modèle CSGO est entraîné de bout en bout, découplant clairement les caractéristiques de contenu et de style grâce à une injection de caractéristiques indépendante. Il permet le transfert de style piloté par l'image, la synthèse de style pilotée par le texte et la synthèse de style pilotée par l'édition de texte. Il présente les avantages suivants : inférence sans réglage fin, préservation des capacités de génération du modèle texte-image original et unification du transfert et de la synthèse de style.