AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

Lançamento do Próximo Codificador de Visão Open Source OpenVision: Uma Alternativa Poderosa Além de CLIP e SigLIP

AIbase基地

公開日AIニュース · 7 分で読めます · May 13, 2025

A UC Santa Cruz recentemente anunciou o lançamento do OpenVision, uma nova série de codificadores visuais projetados para oferecer alternativas a modelos como o CLIP da OpenAI e o SigLIP do Google. A introdução do OpenVision oferece aos desenvolvedores e empresas mais flexibilidade e opções, tornando o processamento e a compreensão de imagens mais eficientes.

O Que São Codificadores Visuais?

Codificadores visuais são modelos de IA que convertem materiais visuais (geralmente imagens estáticas enviadas pelo usuário) em dados numéricos que podem ser compreendidos por outros modelos não visuais (como grandes modelos de linguagem). Os codificadores visuais atuam como uma ponte crucial entre a compreensão de imagens e texto, permitindo que os grandes modelos de linguagem identifiquem temas, cores, posições e outras características nas imagens para um raciocínio e interação mais complexos.

Principais Características do OpenVision

1. **Diversidade de Modelos**

O OpenVision oferece 26 modelos diferentes com tamanhos de parâmetros variando de 5,9 milhões a 632 milhões. Essa diversidade permite que os desenvolvedores escolham modelos adequados com base em cenários específicos de aplicação, seja para identificar imagens em canteiros de obras ou fornecer orientações de solução de problemas para aparelhos domésticos.

2. **Arquitetura Flexível de Implantação

O OpenVision foi projetado para se adaptar a diversos cenários de uso. Modelos maiores são adequados para cargas de trabalho em servidores, exigindo alta precisão e entendimento visual detalhado, enquanto variantes menores são otimizadas para computação de borda, adequadas para ambientes com limitações de processamento e memória. Além disso, os modelos suportam tamanhos adaptáveis de patches (8×8 e 16×16), permitindo trocas flexíveis entre resolução de detalhes e carga computacional.

3. **Desempenho Excepcional em Testes Multimodais

Em uma série de testes de benchmarks, o OpenVision desempenhou-se muito bem em diversas tarefas multimodais de imagem e linguagem. Embora a avaliação do OpenVision ainda inclua benchmarks tradicionais do CLIP (como ImageNet e MSCOCO), a equipe de pesquisa enfatizou que esses métricos não devem ser usados exclusivamente para avaliar o desempenho do modelo. Eles recomendam adotar uma cobertura de benchmarks mais ampla e protocolos de avaliação abertos para refletir melhor aplicações multimodais reais.

4. **Estratégia de Treinamento Progressivo Eficiente

O OpenVision utiliza uma estratégia de treinamento progressivo de resolução, onde o modelo começa o treinamento em imagens de baixa resolução e gradualmente se ajusta para imagens de alta resolução. Este método melhora a eficiência do treinamento, sendo geralmente duas a três vezes mais rápido que o CLIP e o SigLIP, sem sacrificar o desempenho nos fluxos de trabalho subsequentes.

5. **Sistemas Leves Otimizados para Computação de Borda

O OpenVision também visa combinar eficazmente com pequenos modelos de linguagem. Em um experimento, o codificador visual foi combinado com um modelo Smol-LM com 1,5 milhão de parâmetros, criando um modelo multimodal com um total de parâmetros abaixo de 2,5 milhões. Apesar de sua pequena escala, este modelo manteve boa precisão em tarefas como resposta a perguntas visuais e compreensão de documentos.

A Importância das Aplicações Empresariais

O abordagem de código aberto e modular do OpenVision tem significado estratégico para tomadores de decisão tecnológicos em empresas. Não apenas oferece aos modelos grandes de linguagem capacidades visuais de plug-and-play de alto desempenho, mas também garante a confidencialidade dos dados proprietários corporativos. Além disso, a arquitetura transparente do OpenVision permite que equipes de segurança monitorem e avaliem vulnerabilidades potenciais no modelo.

A biblioteca de modelos do OpenVision está disponível em implementações PyTorch e JAX e pode ser baixada do Hugging Face. As receitas de treinamento também foram tornadas públicas. Ao oferecer alternativas transparentes, eficientes e escaláveis, o OpenVision fornece uma base flexível para pesquisadores e desenvolvedores impulsionarem o desenvolvimento de aplicativos visão-linguagem.

Projeto: https://ucsc-vlaa.github.io/OpenVision/

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

Lançamento do Próximo Codificador de Visão Open Source OpenVision: Uma Alternativa Poderosa Além de CLIP e SigLIP

AIbase基地

この記事はAIbaseデイリーからのものです