Recentemente, a Universidade de Hong Kong e a NVIDIA desenvolveram um novo mecanismo de atenção visual chamado Rede de Propagação Espacial Generalizada (GSPN, na sigla em inglês), que alcançou avanços significativos na geração de imagens de alta resolução.
O mecanismo de auto-atenção tradicional, embora tenha obtido bons resultados no processamento de linguagem natural e visão computacional, enfrenta desafios significativos ao lidar com imagens de alta resolução, como complexidade computacional elevada e perda de estrutura espacial. A complexidade computacional do mecanismo de auto-atenção tradicional é de ordem O(N²), o que torna o processamento de longos contextos muito demorado. Além disso, a conversão de uma imagem bidimensional para uma sequência unidimensional resulta na perda das relações espaciais.
Para superar esses problemas, a GSPN adota um método inovador de propagação linear bidimensional e combina a teoria de "estabilidade-condição de contexto", reduzindo a complexidade computacional para o nível √N, enquanto preserva a coerência espacial da imagem. Esse novo mecanismo aumenta significativamente a eficiência computacional e estabeleceu novos recordes de desempenho em várias tarefas visuais.
A tecnologia central da GSPN inclui duas partes principais: propagação linear bidimensional e estabilidade-condição de contexto. Através de varreduras lineares por linha ou coluna, a GSPN pode processar imagens bidimensionais de forma eficiente. Em comparação com os mecanismos de atenção tradicionais, a GSPN não apenas reduz o número de parâmetros, mas também mantém a propagação completa das informações. Além disso, os pesquisadores propuseram a condição de estabilidade-contexto, garantindo a estabilidade e confiabilidade do sistema durante a propagação de longa distância.
Em experimentos, a GSPN demonstrou um desempenho excepcional. Na tarefa de classificação de imagens, a GSPN alcançou uma precisão Top-1 de 82,2% com apenas 5,3 GFLOPs de cálculo, superando vários modelos existentes. No campo da geração de imagens, a GSPN acelerou a velocidade de geração em 1,5 vezes ao lidar com tarefas de 256×256. Em particular, na tarefa de geração de imagens a partir de texto, a GSPN consegue realizar gerações rápidas em resoluções de 16K×8K, com uma aceleração de mais de 84 vezes no tempo de inferência, demonstrando um grande potencial para aplicações práticas.
Portanto, a GSPN, através de seus designs conceituais únicos e estruturais, conseguiu melhorar significativamente a eficiência computacional mantendo a coerência espacial, abrindo novas possibilidades para modelos multimodais futuros e aplicações de visão em tempo real.
Página do projeto: https://whj363636.github.io/GSPN/
Código: https://github.com/NVlabs/GSPN
Foco principal:
🌟 A GSPN aumenta a velocidade de geração de imagens de alta resolução em mais de 84 vezes por meio de um mecanismo inovador de propagação linear bidimensional.
💡 Este mecanismo resolve os problemas de complexidade computacional e perda de estrutura espacial enfrentados pelo auto-atendimento tradicional ao lidar com imagens de alta resolução.
🚀 A GSPN estabeleceu novos recordes de desempenho em várias tarefas visuais, abrindo novas direções para aplicativos futuros.
NVIDIA e a Universidade de Hong Kong lançam novo mecanismo de atenção visual, aumentando a velocidade de geração de alta resolução mais de 84 vezes!

AIbase基地
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.