CSGOは、コンテンツスタイル合成に基づいたテキストから画像を生成するモデルです。データ構築パイプラインにより、スタイル変換済みデータの3元組を生成、自動的にクレンジングを行い、21万件の画像3元組を含む、大規模なスタイル変換データセットIMAGStyleを構築しました。CSGOモデルはエンドツーエンドで学習され、コンテンツ特徴とスタイル特徴を明確に分離し、独立した特徴注入によって実現しています。画像駆動型スタイル変換、テキスト駆動型スタイル合成、テキスト編集駆動型スタイル合成を実現しており、微調整なしで推論可能、元のテキストから画像生成モデルの生成能力を維持、スタイル変換とスタイル合成を統一といった利点があります。