A UC Santa Cruz recentemente anunciou o lançamento do OpenVision, uma nova série de codificadores visuais projetados para oferecer alternativas a modelos como o CLIP da OpenAI e o SigLIP do Google. A introdução do OpenVision oferece aos desenvolvedores e empresas mais flexibilidade e opções, tornando o processamento e a compreensão de imagens mais eficientes.

QQ_1747104293206.png

O Que São Codificadores Visuais?

Codificadores visuais são modelos de IA que convertem materiais visuais (geralmente imagens estáticas enviadas pelo usuário) em dados numéricos que podem ser compreendidos por outros modelos não visuais (como grandes modelos de linguagem). Os codificadores visuais atuam como uma ponte crucial entre a compreensão de imagens e texto, permitindo que os grandes modelos de linguagem identifiquem temas, cores, posições e outras características nas imagens para um raciocínio e interação mais complexos.

QQ_1747104314162.png

Principais Características do OpenVision

1. **Diversidade de Modelos**

    O OpenVision oferece 26 modelos diferentes com tamanhos de parâmetros variando de 5,9 milhões a 632 milhões. Essa diversidade permite que os desenvolvedores escolham modelos adequados com base em cenários específicos de aplicação, seja para identificar imagens em canteiros de obras ou fornecer orientações de solução de problemas para aparelhos domésticos.

2. **Arquitetura Flexível de Implantação

    O OpenVision foi projetado para se adaptar a diversos cenários de uso. Modelos maiores são adequados para cargas de trabalho em servidores, exigindo alta precisão e entendimento visual detalhado, enquanto variantes menores são otimizadas para computação de borda, adequadas para ambientes com limitações de processamento e memória. Além disso, os modelos suportam tamanhos adaptáveis de patches (8×8 e 16×16), permitindo trocas flexíveis entre resolução de detalhes e carga computacional.

3. **Desempenho Excepcional em Testes Multimodais

    Em uma série de testes de benchmarks, o OpenVision desempenhou-se muito bem em diversas tarefas multimodais de imagem e linguagem. Embora a avaliação do OpenVision ainda inclua benchmarks tradicionais do CLIP (como ImageNet e MSCOCO), a equipe de pesquisa enfatizou que esses métricos não devem ser usados exclusivamente para avaliar o desempenho do modelo. Eles recomendam adotar uma cobertura de benchmarks mais ampla e protocolos de avaliação abertos para refletir melhor aplicações multimodais reais.

4. **Estratégia de Treinamento Progressivo Eficiente

    O OpenVision utiliza uma estratégia de treinamento progressivo de resolução, onde o modelo começa o treinamento em imagens de baixa resolução e gradualmente se ajusta para imagens de alta resolução. Este método melhora a eficiência do treinamento, sendo geralmente duas a três vezes mais rápido que o CLIP e o SigLIP, sem sacrificar o desempenho nos fluxos de trabalho subsequentes.

5. **Sistemas Leves Otimizados para Computação de Borda

    O OpenVision também visa combinar eficazmente com pequenos modelos de linguagem. Em um experimento, o codificador visual foi combinado com um modelo Smol-LM com 1,5 milhão de parâmetros, criando um modelo multimodal com um total de parâmetros abaixo de 2,5 milhões. Apesar de sua pequena escala, este modelo manteve boa precisão em tarefas como resposta a perguntas visuais e compreensão de documentos.

A Importância das Aplicações Empresariais

O abordagem de código aberto e modular do OpenVision tem significado estratégico para tomadores de decisão tecnológicos em empresas. Não apenas oferece aos modelos grandes de linguagem capacidades visuais de plug-and-play de alto desempenho, mas também garante a confidencialidade dos dados proprietários corporativos. Além disso, a arquitetura transparente do OpenVision permite que equipes de segurança monitorem e avaliem vulnerabilidades potenciais no modelo.

A biblioteca de modelos do OpenVision está disponível em implementações PyTorch e JAX e pode ser baixada do Hugging Face. As receitas de treinamento também foram tornadas públicas. Ao oferecer alternativas transparentes, eficientes e escaláveis, o OpenVision fornece uma base flexível para pesquisadores e desenvolvedores impulsionarem o desenvolvimento de aplicativos visão-linguagem.

Projeto: https://ucsc-vlaa.github.io/OpenVision/