La conversion de style pilotée par texte est une tâche importante dans le domaine de la synthèse d'images, visant à fusionner le style d'une image de référence avec le contenu décrit par une invite textuelle. Récemment, les modèles de génération d'images à partir de texte ont fait des progrès significatifs, permettant une conversion de style plus raffinée tout en maintenant une haute fidélité du contenu. Cette technologie présente une énorme valeur pratique dans des domaines tels que la peinture numérique, la publicité et la conception de jeux.

image.png

Cependant, les techniques de conversion de style existantes présentent encore quelques lacunes. Les principaux défis incluent :

Sur-adaptation du style : les modèles actuels ont tendance à reproduire tous les éléments de l'image de référence, ce qui entraîne une image générée trop proche du style de référence, limitant ainsi la flexibilité esthétique et l'adaptabilité de l'image générée.

Alignement de texte imprécis : le modèle peut privilégier les couleurs ou les motifs dominants de l'image de référence, même si ces éléments sont contradictoires avec les instructions de l'invite textuelle.

Artefacts de génération : la conversion de style peut introduire des artefacts inutiles, tels que des motifs répétitifs (effet de damier), qui détruisent la disposition globale de l'image.

image.png

Pour résoudre ces problèmes, les chercheurs ont proposé trois stratégies complémentaires :

Fusion intermodale basée sur AdaIN : en utilisant le mécanisme d'adaptation de l'instance normalisation (AdaIN), les caractéristiques de l'image de style sont intégrées aux caractéristiques textuelles, puis fusionnées avec les caractéristiques de l'image. Cette fusion adaptative crée une caractéristique directrice plus cohérente, permettant aux caractéristiques de style de s'aligner plus harmonieusement avec les instructions basées sur le texte. AdaIN intègre efficacement le style dans le contenu en ajustant les caractéristiques du contenu pour refléter les statistiques de style, tout en préservant la cohérence entre le contenu et la description textuelle.

Guidage sans classificateur basé sur le style (SCFG) : développement d'une méthode de guidage de style qui se concentre sur le style cible et réduit les caractéristiques de style inutiles. En utilisant un modèle génératif contrôlé par la disposition (par exemple, ControlNet), une image « négative » dépourvue du style cible est générée. Cette image négative agit comme une invite « vide » dans les modèles de diffusion, permettant au guidage de se concentrer entièrement sur les éléments du style cible.

Stabilisation de la disposition à l'aide d'un modèle enseignant : introduction d'un modèle enseignant au début de la génération. Ce modèle enseignant est basé sur le modèle texte-image original, exécutant simultanément une génération de débruitage avec la même invite textuelle que le modèle de style, et partageant sa carte d'attention spatiale à chaque étape. Cette méthode assure une distribution spatiale stable et cohérente, atténuant efficacement les problèmes tels que les artefacts de damier. De plus, elle permet de maintenir une disposition spatiale cohérente pour la même invite textuelle entre différentes images de référence de style.

Les chercheurs ont vérifié l'efficacité de ces méthodes par de nombreuses expériences. Les résultats montrent que la méthode permet d'améliorer considérablement la qualité de conversion de style des images générées et de maintenir la cohérence avec les invites textuelles. Plus important encore, la méthode peut être intégrée aux cadres de conversion de style existants sans nécessiter d'ajustement fin.

Les chercheurs ont découvert expérimentalement que l'instabilité dans le mécanisme d'attention croisée conduit à l'apparition d'artefacts. Le mécanisme d'auto-attention joue un rôle clé dans le maintien de la disposition et de la structure spatiale de l'image, stabilisant le processus de génération en capturant les relations spatiales de haut niveau. En remplaçant sélectivement certaines cartes d'auto-attention dans l'image stylisée, il est possible de préserver les relations spatiales des caractéristiques clés de l'image, assurant la cohérence de la disposition principale tout au long du processus de débruitage.

De plus, le guidage sans classificateur basé sur le style (SCFG) résout efficacement le problème de l'ambiguïté du style. Il permet de mettre en évidence sélectivement les éléments de style souhaités tout en filtrant les caractéristiques non pertinentes ou conflictuelles. Cette méthode, en utilisant un modèle de contrôle de disposition pour générer une image de style négatif, permet au modèle de se concentrer sur le transfert des composants de style souhaités, atténuant ainsi le risque de sur-adaptation aux composants de style non pertinents.

Les chercheurs ont également mené des expériences d'ablation pour évaluer l'impact de chaque composant. Les résultats montrent que la fusion intermodale basée sur AdaIN et le modèle enseignant améliorent considérablement la précision de l'alignement du texte et présentent des effets complémentaires.

En résumé, la méthode proposée dans cette étude permet d'atténuer efficacement les problèmes de sur-adaptation du style et d'instabilité de la disposition dans les techniques de conversion de style pilotées par texte existantes, permettant ainsi une génération d'images de meilleure qualité et offrant une solution polyvalente et puissante pour les tâches de synthèse d'images à partir de texte.

Adresse de l'article : https://arxiv.org/pdf/2412.08503