NVIDIA e a Universidade de Hong Kong lançam novo mecanismo de atenção visual, aumentando a velocidade de geração de alta resolução mais de 84 vezes!

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Jun 10, 2025

4

Recentemente, a Universidade de Hong Kong e a NVIDIA desenvolveram um novo mecanismo de atenção visual chamado Rede de Propagação Espacial Generalizada (GSPN, na sigla em inglês), que alcançou avanços significativos na geração de imagens de alta resolução.

O mecanismo de auto-atenção tradicional, embora tenha obtido bons resultados no processamento de linguagem natural e visão computacional, enfrenta desafios significativos ao lidar com imagens de alta resolução, como complexidade computacional elevada e perda de estrutura espacial. A complexidade computacional do mecanismo de auto-atenção tradicional é de ordem O(N²), o que torna o processamento de longos contextos muito demorado. Além disso, a conversão de uma imagem bidimensional para uma sequência unidimensional resulta na perda das relações espaciais.

Para superar esses problemas, a GSPN adota um método inovador de propagação linear bidimensional e combina a teoria de "estabilidade-condição de contexto", reduzindo a complexidade computacional para o nível √N, enquanto preserva a coerência espacial da imagem. Esse novo mecanismo aumenta significativamente a eficiência computacional e estabeleceu novos recordes de desempenho em várias tarefas visuais.

A tecnologia central da GSPN inclui duas partes principais: propagação linear bidimensional e estabilidade-condição de contexto. Através de varreduras lineares por linha ou coluna, a GSPN pode processar imagens bidimensionais de forma eficiente. Em comparação com os mecanismos de atenção tradicionais, a GSPN não apenas reduz o número de parâmetros, mas também mantém a propagação completa das informações. Além disso, os pesquisadores propuseram a condição de estabilidade-contexto, garantindo a estabilidade e confiabilidade do sistema durante a propagação de longa distância.

Em experimentos, a GSPN demonstrou um desempenho excepcional. Na tarefa de classificação de imagens, a GSPN alcançou uma precisão Top-1 de 82,2% com apenas 5,3 GFLOPs de cálculo, superando vários modelos existentes. No campo da geração de imagens, a GSPN acelerou a velocidade de geração em 1,5 vezes ao lidar com tarefas de 256×256. Em particular, na tarefa de geração de imagens a partir de texto, a GSPN consegue realizar gerações rápidas em resoluções de 16K×8K, com uma aceleração de mais de 84 vezes no tempo de inferência, demonstrando um grande potencial para aplicações práticas.

Portanto, a GSPN, através de seus designs conceituais únicos e estruturais, conseguiu melhorar significativamente a eficiência computacional mantendo a coerência espacial, abrindo novas possibilidades para modelos multimodais futuros e aplicações de visão em tempo real.

Página do projeto: https://whj363636.github.io/GSPN/

Código: https://github.com/NVlabs/GSPN

Foco principal:

🌟 A GSPN aumenta a velocidade de geração de imagens de alta resolução em mais de 84 vezes por meio de um mecanismo inovador de propagação linear bidimensional.

💡 Este mecanismo resolve os problemas de complexidade computacional e perda de estrutura espacial enfrentados pelo auto-atendimento tradicional ao lidar com imagens de alta resolução.

🚀 A GSPN estabeleceu novos recordes de desempenho em várias tarefas visuais, abrindo novas direções para aplicativos futuros.

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

NVIDIA e a Universidade de Hong Kong lançam novo mecanismo de atenção visual, aumentando a velocidade de geração de alta resolução mais de 84 vezes!

AIbase基地

Este artigo é do AIbase Daily