Recentemente, uma equipe de pesquisa da Universidade de Hong Kong, da Universidade Chinesa de Hong Kong e da SenseTime lançou um novo framework notável - GoT-R1. Este novo modelo multimodal de grande porte, ao introduzir aprendizado por reforço (RL), melhorou significativamente a capacidade de raciocínio semântico e espacial da IA nas tarefas de geração visual, conseguindo gerar imagens de alta fidelidade e semanticamente coerentes a partir de instruções complexas de texto. Essa progressão representa mais um salto na tecnologia de geração de imagens.
Ao contrário, apesar dos avanços significativos nos modelos multimodais existentes na geração de imagens com base em instruções de texto, ainda enfrentam muitos desafios ao lidar com instruções que envolvem relações espaciais precisas e combinações complexas. O GoT-R1 foi criado exatamente para resolver esse problema. Em comparação com sua versão anterior, o GoT-R1 não apenas expandiu a capacidade de raciocínio da IA, mas também lhe deu a capacidade de aprender e otimizar estratégias de raciocínio de forma autônoma.
O núcleo do GoT-R1 está em seu mecanismo de aprendizado por reforço. A equipe projetou um sistema de recompensa abrangente e eficaz, ajudando o modelo a entender melhor as instruções complexas dos usuários durante a geração de imagens. Esse mecanismo abrange vários aspectos de avaliação, incluindo a consistência semântica das imagens geradas, a precisão da disposição espacial e a qualidade estética geral. Mais importante ainda, o GoT-R1 torna possível visualizar o processo de raciocínio, permitindo que o modelo avalie com mais precisão os resultados da geração de imagens.
Após uma avaliação completa, a equipe de pesquisa descobriu que o GoT-R1 se saiu bem em um teste padrão chamado T2I-CompBench, especialmente ao lidar com instruções complexas e multivariadas, demonstrando capacidades superiores às de outros modelos principais. Por exemplo, no teste "complexo", o desempenho do GoT-R1 foi particularmente notável, com sua forte capacidade de raciocínio e geração fazendo com que esse modelo obtivesse as maiores pontuações em vários critérios de avaliação.
O lançamento do GoT-R1 trouxe nova vitalidade à tecnologia de geração de imagens multimodais, demonstrando as infinitas possibilidades da IA ao lidar com tarefas complexas. À medida que a tecnologia continua evoluindo, a geração de imagens do futuro será cada vez mais inteligente e precisa.
Artigo: https://arxiv.org/pdf/2503.10639