No campo da geração de arte com IA, sempre houve uma crença generalizada de que para gerar imagens e vídeos de alta qualidade, é necessário depender de modelos maiores, mais parâmetros e capacidade computacional mais forte. No entanto, a recente tecnologia chamada EvoSearch (Busca Evolutiva), proposta por uma equipe de pesquisa da Universidade de Ciência e Tecnologia de Hong Kong e da empresa Kuaishou Technology, está revolucionando completamente essa noção pré-existente.

image.png

O desempenho mais impressionante dessa tecnologia é que o modelo Stable Diffusion 2.1, com apenas 865M de parâmetros, após ser usado com o EvoSearch, gerou imagens de qualidade superior até mesmo ao poderoso GPT-4. Além disso, o modelo Wan com 1.3B de parâmetros, combinado com o EvoSearch, conseguiu rivalizar com um modelo 10 vezes maior, o modelo Wan de 14B.

Dilema dos Modelos Atuais de Geração de IA

A maioria dos modelos principais de geração de IA atualmente disponíveis pode ser dividida em duas grandes categorias: modelos difusivos e modelos de fluxo. Os modelos difusivos geram imagens claras removendo gradualmente ruído, semelhante ao processo de tornar uma foto borrada cada vez mais clara. Já os modelos de fluxo transformam diretamente o ruído aleatório em uma imagem-alvo através de uma série de transformações suaves.

Para melhorar o desempenho desses modelos, a indústria adota geralmente duas estratégias. A primeira é aumentar constantemente o tamanho do modelo e alimentá-lo com mais dados durante o estágio de treinamento, mas este método "força bruta" é muito caro e já está próximo do limite de recursos. A segunda estratégia ocorre durante o estágio de inferência, otimizando processos como amostragem Best-of-N (gerando N imagens e selecionando a melhor) e amostragem por partículas (mantendo múltiplas soluções candidatas e selecionando as melhores).

image.png

No entanto, esses métodos existentes apresentam deficiências óbvias: o método Best-of-N é ineficiente, desperdiçando muita computação em "lixo"; a técnica de amostragem por partículas é excessivamente conservadora, tendendo a ficar presa em soluções ótimas locais, sem capacidade de exploração ativa; outros métodos de ajuste requerem treinamento extra ou acabam gerando amostras com pouca diversidade.

EvoSearch: A "Teoria da Evolução" no Campo de Geração de Arte com IA

O principal inovador do EvoSearch está em introduzir a ideia da teoria da evolução de Darwin no processo de geração de IA. Este método vê a geração de imagens como um processo de evolução de espécies: inicialmente gera uma "população" inicial (ruído aleatório), depois avalia a "aptidão" dos produtos intermediários, escolhe os indivíduos mais bem-sucedidos através de um processo de "seleção natural", e finalmente gera novas soluções candidatas através de operações de "mutação" especificamente projetadas.

A mutação operacional é a principal quebra de tecnologia do EvoSearch. Para o ruído inicial, o sistema realiza mutações adicionando ruído gaussiano adequado; para os estados intermediários durante o processo de remoção de ruído, ele incorpora maneiras de injeção de aleatoriedade baseadas em equações diferenciais estocásticas, introduzindo perturbações controláveis nos estados intermediários. Esse design permite explorar novas regiões enquanto mantém "genes" de sucesso.

Compared to traditional methods, EvoSearch has three main advantages: active exploration rather than passive selection, which allows it to break out of initial candidate pool restrictions; effective balance between exploration and exploitation, avoiding premature convergence to local optima; strong generality, applicable to various diffusion models and flow models, without requiring modification of model structures or additional training.

Resultados Experimentais: Uma "Abaixa Dimensão" Notável

A equipe de pesquisa realizou testes abrangentes em tarefas de geração de imagens e vídeos, mostrando que o EvoSearch supera significativamente os métodos baseline existentes em todas as métricas avaliadas.

No campo da geração de imagens, à medida que o custo computacional aumenta durante a inferência, a qualidade das imagens geradas pelo EvoSearch e a correspondência com o texto continuam a melhorar de forma estável, enquanto outros métodos logo atingem um limite. Para prompts complexos ou que podem gerar ambiguidade, o EvoSearch entende mais precisamente e gera imagens que atendem aos requisitos, além de demonstrar uma maior diversidade em aspectos como fundo e postura.

A performance no campo da geração de vídeos foi ainda mais impressionante. Independentemente de usar o modelo Wan 1.3B ou o modelo de vídeo Hunyuan 13B, a qualidade gerada pelo EvoSearch superou significativamente os métodos baseline. O que foi mais impressionante foi que, quando o modelo Wan 1.3B foi atribuído o mesmo orçamento de tempo de inferência que o modelo Wan 14B, o resultado combinado de ambos superou facilmente o modelo maior.

É importante destacar que, mesmo com indicadores de avaliação não totalmente consistentes com a função de recompensa usada pelo EvoSearch durante a busca, o método ainda demonstra boa capacidade de generalização, dificilmente sendo enganado por funções de recompensa específicas. Nas avaliações humanas, os vídeos gerados pelo EvoSearch obtiveram taxas de vitória mais altas em termos de qualidade visual, qualidade de movimento, alinhamento de texto e qualidade geral.

Inspiração Técnica e Perspectivas Futuras

O sucesso do EvoSearch trouxe importantes insights para o campo de geração de IA. Primeiro, hoje, com os custos de treinamento aumentando cada vez mais, investir mais computação durante o estágio de inferência para melhorar o desempenho do modelo é uma rota de exploração de grande valor. Segundo, aplicar as ideias de seleção e mutação da evolução biológica ao campo de geração de IA pode superar eficazmente as limitações dos métodos de busca tradicionais.

Mais importante ainda, o sucesso dessa tecnologia não seria possível sem uma compreensão profunda dos processos de remoção de ruído nos modelos difusivos e de fluxo. O EvoSearch realmente dominou as características estruturais do espaço de estado durante o processo de remoção de ruído desses modelos e projetou estratégias de mutação direcionadas, permitindo explorar de forma mais eficiente o vasto espaço de possibilidades.

Naturalmente, o EvoSearch também tem espaço para melhorias futuras. A equipe de pesquisa aponta que as direções futuras incluem projetar estratégias de mutação mais inteligentes e balancear melhor a exploração e a eficiência computacional.

Essa tecnologia mostra uma tendência importante: mesmo sem seguir cegamente a busca por modelos maiores e mais dados de treinamento, podemos ainda explorar o potencial mais profundo dos modelos de IA ao aplicar estratégias de busca mais inteligentes no estágio de inferência. O EvoSearch está abrindo uma era de "evolução inteligente" na criação com IA, permitindo que pequenos modelos criem obras surpreendentes.

Página do projeto: https://tinnerhrhe.github.io/evosearch/

Código: https://github.com/tinnerhrhe/EvoSearch-codes

Papel: https://arxiv.org/abs/2505.17618