Recentemente, um novo resultado da equipe de pesquisa chamou atenção — o modelo CoMPaSS-FLUX.1. Este é um adaptador LoRA baseado no modelo de difusão de texto para imagem FLUX.1, projetado para melhorar significativamente a compreensão das relações espaciais entre objetos durante a geração de imagens. O modelo fez avanços notáveis no tratamento de relações espaciais específicas entre objetos, trazendo novas possibilidades para o campo da geração de imagens.

image.png

O modelo base do CoMPaSS-FLUX.1 é o FLUX.1-dev, com uma classificação LoRA de 16 e tamanho de arquivo de aproximadamente 50 MB, utilizando o framework Diffusers. Seu principal uso é gerar imagens com relações espaciais precisas, capazes de criar composições que exigem arranjos espaciais específicos, enquanto aprimora a compreensão espacial mantendo outras capacidades.

No desempenho, as melhorias principais do CoMPaSS-FLUX.1 são impressionantes. De acordo com o benchmark VISOR, o aumento relativo deste modelo chegou a 98%; no teste espacial T2I-CompBench, o aumento foi de 67%; e na avaliação de posição GenEval, houve um aumento relativo de 131%. Além disso, o CoMPaSS-FLUX.1 também se saiu bem em termos de fidelidade da imagem, com pontuações FID e CMMD mais baixas do que o modelo base, indicando uma melhoria na qualidade da geração.

Ao usar este modelo, os usuários podem consultar suas dicas eficazes. O modelo se sai melhor ao descrever relações espaciais, especialmente quando as dicas incluem descrições claras de relações espaciais (como "à esquerda", "à direita", "acima", "abaixo") ou descrições claras de relações espaciais entre dois objetos diferentes (por exemplo, "na foto, A está à direita de B").

Durante o processo de treinamento, o CoMPaSS-FLUX.1 utilizou dados provenientes do motor de dados SCOP (pareamento orientado por restrições espaciais), abrangendo cerca de 28.000 pares de objetos cuidadosamente selecionados. Esses dados têm padrões rigorosos em termos de importância visual, distinção semântica, clareza espacial, relações entre objetos e equilíbrio visual.

O processo de treinamento durou 24.000 etapas, com configuração de tamanho de lote igual a 4, taxa de aprendizado definida em 1e-4 e uso do otimizador AdamW, com redução de peso definida em 1e-2.

huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1

Destaque:

🌟 O modelo CoMPaSS-FLUX.1 aumentou significativamente a compreensão espacial durante a geração de imagem a partir de texto, especialmente no tratamento das relações entre objetos.

📊 Os resultados de avaliação de desempenho mostram melhorias notáveis do modelo em vários benchmarks, mantendo a qualidade de geração alta.

📚 O modelo foi treinado com um conjunto de dados selecionado rigorosamente, garantindo que as imagens geradas tenham boas relações espaciais e clareza visual.