Na era digital atual, a tecnologia de geração de imagens está se desenvolvendo em um ritmo impressionante. Recentemente, uma equipe de pesquisa da Universidade Nacional de Singapura apresentou uma nova estrutura — OminiControl — projetada para melhorar a flexibilidade e a eficiência da geração de imagens. Essa estrutura, combinando condições de imagem, utiliza plenamente modelos de transformadores de difusão (Diffusion Transformer, ou DiT) já treinados, proporcionando um nível de controle sem precedentes.

Simplificando, basta fornecer uma imagem de origem e o OminiControl poderá integrar o tema dessa imagem na imagem gerada. Por exemplo, se o usuário carregar a imagem de origem à esquerda e inserir a frase "um chip humano colocado ao lado de uma mesa em um consultório médico, com um estetoscópio na mesa", o resultado gerado é mediano, conforme mostrado abaixo:

image.png

O núcleo do OminiControl reside em seu “mecanismo de reaproveitamento de parâmetros”. Esse mecanismo permite que o modelo DiT processe condições de imagem com eficiência, usando menos parâmetros adicionais. Isso significa que, em comparação com os métodos existentes, o OminiControl precisa apenas de 0,1% a 0,1% de parâmetros adicionais para alcançar funcionalidades poderosas. Além disso, ele pode processar uniformemente várias tarefas de condicionamento de imagem, como geração baseada em tema e aplicação de condições de alinhamento espacial, como bordas e mapas de profundidade. Essa flexibilidade é particularmente adequada para tarefas de geração orientadas por tema.

image.png

A equipe de pesquisa também destaca que o OminiControl alcança essas capacidades por meio do treinamento de imagens geradas, o que é particularmente importante para a geração orientada por tema. Após uma avaliação abrangente, o OminiControl superou significativamente os modelos UNet e os modelos DiT adaptados existentes nas tarefas de geração orientada por tema e geração com condições de alinhamento espacial. Essa conquista de pesquisa abre novas possibilidades para a área criativa.

image.png

Para apoiar pesquisas mais amplas, a equipe também lançou um conjunto de dados de treinamento chamado Subjects200K, contendo mais de 200.000 imagens com identidade consistente, e forneceu um pipeline de síntese de dados eficiente. Esse conjunto de dados oferecerá um recurso valioso aos pesquisadores, ajudando-os a explorar ainda mais as tarefas de geração consistente de temas.

O lançamento do OminiControl não apenas melhora a eficiência e os resultados da geração de imagens, mas também oferece mais possibilidades para a criação artística. Com o avanço contínuo da tecnologia, a geração de imagens futura será mais inteligente e personalizada.

Experiência online: https://huggingface.co/spaces/Yuanshi/OminiControl

github: https://github.com/Yuanshi9815/OminiControl

Artigo: https://arxiv.org/html/2411.15098v2

Destaques:

🌟 O OminiControl, por meio de seu mecanismo de reaproveitamento de parâmetros, torna o controle da geração de imagens mais poderoso e eficiente.

🎨 Essa estrutura pode processar simultaneamente várias tarefas de condicionamento de imagem, como bordas e mapas de profundidade, adaptando-se a diferentes necessidades criativas.

📸 A equipe lançou o conjunto de dados Subjects200K, com mais de 200.000 imagens, para impulsionar pesquisas e explorações futuras.