CogView est un modèle Transformer pré-entraîné pour la génération d'images à partir de texte dans un domaine général. Ce modèle, doté de 41 000 000 000 de paramètres, est capable de générer des images de haute qualité et diversifiées. L'approche d'entraînement du modèle adopte une méthode d'abstrait au concret : un pré-entraînement pour acquérir des connaissances générales, suivi d'un réglage fin sur un domaine spécifique pour la génération d'images, ce qui améliore significativement la qualité de la génération. Il est également important de noter que l'article propose deux techniques pour une meilleure stabilité de l'entraînement des grands modèles : PB-relax et Sandwich-LN.