Glyph-ByT5は、テキストから画像を生成するモデルにおける視覚テキストのレンダリング精度を向上させるために設計された、カスタムテキストエンコーダです。文字を認識するByT5エンコーダを微調整し、厳選されたペアワイズのグリフテキストデータセットを使用して実現しました。Glyph-ByT5をSDXLと統合することで、Glyph-SDXLモデルが形成され、デザイン画像生成におけるテキストレンダリング精度は20%未満から90%近くにまで向上しました。このモデルは、段落テキストの自動的な複数行レイアウトレンダリングも可能にし、数十文字から数百文字まで、高いスペル精度を維持します。さらに、視覚テキストを含む高品質の現実画像を少量使用して微調整することで、Glyph-SDXLは、オープンワールドの現実画像におけるシーンテキストのレンダリング能力も大幅に向上しました。これらの有望な成果は、さまざまな困難なタスク向けにカスタムテキストエンコーダを設計するためのさらなる探求を促すものです。