SPARC
Aprimora a compreensão granular de pré-treinamento de texto e imagem
Produto ComumImagemPré-treinamento de texto e imagemCompreensão granular
SPARC é um método simples para pré-treinamento de pares de imagem-texto, projetado para pré-treinar representações multimodais mais granulares a partir de pares de imagem-texto. Ele utiliza uma métrica de similaridade esparsa e o agrupamento de blocos de imagens e tokens de linguagem, aprendendo representações que codificam simultaneamente informações globais e locais através da perda de contraste de sequências granulares e da perda de contraste entre embeddings globais de imagem e texto. O SPARC demonstra melhorias em tarefas de nível de imagem de granularidade grosseira e tarefas de nível de região de granularidade fina, incluindo classificação, recuperação, detecção de objetos e segmentação. Além disso, o SPARC melhora a confiabilidade do modelo e a capacidade de descrição de imagens.
SPARC Situação do Tráfego Mais Recente
Total de Visitas Mensais
25537072
Taxa de Rejeição
44.24%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:47