Recentemente, a Universidade de Hong Kong e a NVIDIA desenvolveram um novo mecanismo de atenção visual chamado Rede de Propagação Espacial Generalizada (GSPN, na sigla em inglês), que alcançou avanços significativos na geração de imagens de alta resolução.

O mecanismo de auto-atenção tradicional, embora tenha obtido bons resultados no processamento de linguagem natural e visão computacional, enfrenta desafios significativos ao lidar com imagens de alta resolução, como complexidade computacional elevada e perda de estrutura espacial. A complexidade computacional do mecanismo de auto-atenção tradicional é de ordem O(N²), o que torna o processamento de longos contextos muito demorado. Além disso, a conversão de uma imagem bidimensional para uma sequência unidimensional resulta na perda das relações espaciais.

Para superar esses problemas, a GSPN adota um método inovador de propagação linear bidimensional e combina a teoria de "estabilidade-condição de contexto", reduzindo a complexidade computacional para o nível √N, enquanto preserva a coerência espacial da imagem. Esse novo mecanismo aumenta significativamente a eficiência computacional e estabeleceu novos recordes de desempenho em várias tarefas visuais.

A tecnologia central da GSPN inclui duas partes principais: propagação linear bidimensional e estabilidade-condição de contexto. Através de varreduras lineares por linha ou coluna, a GSPN pode processar imagens bidimensionais de forma eficiente. Em comparação com os mecanismos de atenção tradicionais, a GSPN não apenas reduz o número de parâmetros, mas também mantém a propagação completa das informações. Além disso, os pesquisadores propuseram a condição de estabilidade-contexto, garantindo a estabilidade e confiabilidade do sistema durante a propagação de longa distância.

Em experimentos, a GSPN demonstrou um desempenho excepcional. Na tarefa de classificação de imagens, a GSPN alcançou uma precisão Top-1 de 82,2% com apenas 5,3 GFLOPs de cálculo, superando vários modelos existentes. No campo da geração de imagens, a GSPN acelerou a velocidade de geração em 1,5 vezes ao lidar com tarefas de 256×256. Em particular, na tarefa de geração de imagens a partir de texto, a GSPN consegue realizar gerações rápidas em resoluções de 16K×8K, com uma aceleração de mais de 84 vezes no tempo de inferência, demonstrando um grande potencial para aplicações práticas.

Portanto, a GSPN, através de seus designs conceituais únicos e estruturais, conseguiu melhorar significativamente a eficiência computacional mantendo a coerência espacial, abrindo novas possibilidades para modelos multimodais futuros e aplicações de visão em tempo real.

Página do projeto: https://whj363636.github.io/GSPN/

Código: https://github.com/NVlabs/GSPN

Foco principal:

🌟 A GSPN aumenta a velocidade de geração de imagens de alta resolução em mais de 84 vezes por meio de um mecanismo inovador de propagação linear bidimensional.

💡 Este mecanismo resolve os problemas de complexidade computacional e perda de estrutura espacial enfrentados pelo auto-atendimento tradicional ao lidar com imagens de alta resolução.

🚀 A GSPN estabeleceu novos recordes de desempenho em várias tarefas visuais, abrindo novas direções para aplicativos futuros.