Récemment, une nouvelle avancée du groupe de recherche a attiré l'attention — le modèle CoMPaSS-FLUX.1. Il s'agit d'un adaptateur LoRA basé sur le modèle FLUX.1 de diffusion texte-image, conçu pour améliorer significativement la compréhension des relations spatiales entre les objets lors de la génération d'images. Ce modèle a réalisé des progrès notables dans le traitement des relations spatiales spécifiques entre les objets, offrant ainsi de nouvelles possibilités dans le domaine de la génération d'images.

image.png

Le modèle de base de CoMPaSS-FLUX.1 est FLUX.1-dev, avec un niveau LoRA de 16 et une taille de fichier d'environ 50 Mo, utilisant le framework Diffusers. Son utilisation principale est de générer des images avec des relations spatiales précises, permettant de créer des compositions nécessitant des arrangements spatiaux spécifiques, tout en renforçant la compréhension spatiale tout en maintenant les autres capacités.

En termes de performance, les améliorations clés de CoMPaSS-FLUX.1 sont remarquables. Selon le benchmark VISOR, l'amélioration relative de ce modèle atteint 98 % ; dans le test spatial T2I-CompBench, l'amélioration est de 67 % ; et dans l'évaluation de position GenEval, elle atteint même une amélioration relative de 131 %. De plus, CoMPaSS-FLUX.1 se distingue également par sa fidélité aux images, avec des scores FID et CMMD inférieurs au modèle de base, indiquant une amélioration de la qualité de génération.

Lors de l'utilisation de ce modèle, les utilisateurs peuvent se référer à ses indications efficaces. Le modèle fonctionne le mieux lorsqu'il décrit des relations spatiales, particulièrement lorsque les indications comprennent des descriptions claires de relations spatiales (comme "à gauche", "à droite", "au-dessus", "en dessous") ou des descriptions précises de relations spatiales entre deux objets différents (par exemple, "la photo A est à droite de B").

Pendant le processus d'entraînement, CoMPaSS-FLUX.1 a utilisé des données provenant du moteur de données SCOP (couplage orienté par des contraintes spatiales), comprenant environ 28 000 paires d'objets soigneusement sélectionnés. Ces données ont des critères stricts en matière de pertinence visuelle, de distinction sémantique, de clarté spatiale, de relation entre les objets et d'équilibre visuel.

Le processus d'entraînement a duré 24 000 étapes, avec une taille de lot de 4, un taux d'apprentissage fixé à 1e-4 et l'utilisation d'un optimiseur AdamW avec un amortissement des poids fixé à 1e-2.

huggingface : https://huggingface.co/blurgy/CoMPaSS-FLUX.1

Points clés :

🌟 Le modèle CoMPaSS-FLUX.1 améliore significativement la compréhension spatiale lors de la génération de textes en images, notamment dans le traitement des relations entre les objets.

📊 Les évaluations de performance montrent que ce modèle présente des améliorations importantes sur plusieurs benchmarks, tout en maintenant une qualité de génération élevée.

📚 L'entraînement du modèle a utilisé un ensemble de données rigoureusement sélectionné, garantissant que les images générées présentent de bonnes relations spatiales et une clarté visuelle.