Recientemente, un nuevo logro del equipo de investigación ha llamado la atención: el modelo CoMPaSS-FLUX.1. Se trata de un adaptador LoRA basado en el modelo de difusión de texto a imagen FLUX.1, diseñado para mejorar significativamente la comprensión de las relaciones espaciales entre los objetos al generar imágenes. Este modelo ha logrado avances notables en el tratamiento de relaciones espaciales específicas entre los objetos, abriendo nuevas posibilidades en el campo de la generación de imágenes.

image.png

El modelo base de CoMPaSS-FLUX.1 es FLUX.1-dev, con un nivel LoRA de 16 y un tamaño de archivo de aproximadamente 50 MB, utilizando el marco Diffusers. Su principal uso es generar imágenes con relaciones espaciales precisas, capaz de crear composiciones que requieren una disposición espacial específica, mientras que mejora la comprensión espacial sin perder otras capacidades.

En cuanto al rendimiento, las mejoras clave de CoMPaSS-FLUX.1 son notablemente destacadas. Según el benchmark VISOR, el aumento relativo alcanzó el 98%; en la prueba espacial T2I-CompBench, el aumento fue del 67%; y en la evaluación de posición GenEval, se logró un aumento relativo del 131%. Además, CoMPaSS-FLUX.1 también mostró un buen desempeño en la fidelidad de las imágenes, ya que sus puntuaciones FID y CMMD son más bajas que las del modelo base, lo que indica una mejora en la calidad de generación.

Al usar este modelo, los usuarios pueden consultar sus sugerencias efectivas. El modelo funciona mejor al describir relaciones espaciales, especialmente cuando las sugerencias incluyen descripciones claras de relaciones espaciales (como "izquierda", "derecha", "arriba", "abajo"), o bien descripciones claras de relaciones espaciales entre dos objetos diferentes (por ejemplo, "en la foto, A está a la derecha de B").

En el proceso de entrenamiento, CoMPaSS-FLUX.1 utilizó datos del motor de datos SCOP (parejas guiadas por restricciones espaciales), que cubre aproximadamente 28.000 pares de objetos cuidadosamente seleccionados. Estos datos tienen estándares estrictos en términos de importancia visual, diferencia semántica, claridad espacial, relación entre objetos y equilibrio visual.

El proceso de entrenamiento duró 24.000 pasos, con una configuración de tamaño de lote de 4, una tasa de aprendizaje establecida en 1e-4 y el uso de un optimizador AdamW con una disminución de peso establecida en 1e-2.

huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1

Puntos clave:

🌟 El modelo CoMPaSS-FLUX.1 mejora significativamente la comprensión espacial durante la generación de imágenes a partir de texto, especialmente en el manejo de relaciones entre objetos.

📊 Los resultados de evaluación muestran mejoras notables del modelo en varios benchmarks, manteniendo un buen nivel de generación de alta calidad.

📚 El entrenamiento del modelo utilizó un conjunto de datos seleccionado rigurosamente, asegurando que las imágenes generadas tengan buenas relaciones espaciales y claridad visual.