A equipe de Pesquisa do Meta AI conquistou mais uma vez um avanço significativo no campo da inteligência artificial, lançando oficialmente o novo modelo de compreensão de vídeo — V-JEPA2 (Video Joint Embedding Predictive Architecture2) — em 11 de junho de 2025. Liderado pelo principal cientista de IA do Meta, Yann LeCun, este modelo apresenta tecnologias inovadoras de aprendizado auto-supervisionado e a capacidade de controle de robôs sem amostras pré-treinadas, abrindo novas possibilidades para a compreensão de vídeos e a modelagem do mundo físico. A AIbase analisa profundamente esta tecnologia de vanguarda e seus impactos potenciais.

V-JEPA2: O "Modelo do Mundo" para Compreensão de Vídeos

O V-JEPA2 é um modelo de IA não gerativo que se concentra na compreensão de vídeos, capaz de identificar eventos em andamento e prever seu desenvolvimento. Diferente dos modelos tradicionais de análise de vídeo, o V-JEPA2 simula o modo como os humanos percebem o mundo, utilizando aprendizado auto-supervisionado para extrair representações abstratas de grandes quantidades de vídeos sem anotações, construindo uma compreensão interna do mundo físico. Essa arquitetura de "modelo do mundo" permite que ele não apenas entenda interações entre objetos nos vídeos, mas também preveja trajetórias de movimento e alterações de cena.

Facebook Metaverso meta

De acordo com a Meta, durante o treinamento, o V-JEPA2 utilizou mais de 1 milhão de horas de vídeo, cobrindo uma ampla variedade de cenários e interações. Esse grande volume de treinamento confere ao modelo uma forte capacidade de generalização, permitindo que ele se adapte a novas tarefas e ambientes desconhecidos sem treinamento adicional.

Inovação Tecnológica: Cinco Destaques Impulsionando o Futuro da IA

Os principais avanços tecnológicos do V-JEPA2 estão refletidos nos seguintes cinco aspectos centrais:

Aprendizado Auto-Supervisionado: O V-JEPA2 não depende de grandes volumes de dados rotulados, extraíndo conhecimento de vídeos sem anotação por meio de aprendizado auto-supervisionado, reduzindo significativamente os custos de preparação de dados.

Mecanismo de Previsão de Obstrução: Treinado para prever conteúdo bloqueado aleatoriamente em vídeos, como uma espécie de "questão de preenchimento", o modelo aprende semânticas profundas do vídeo.

Aprendizado de Representações Abstratas: Ao contrário de reconstruções pixel a pixel tradicionais, o V-JEPA2 foca em aprender significados abstratos do vídeo, compreendendo as relações e mudanças dinâmicas entre os objetos, em vez de simplesmente memorizar detalhes visuais.

Arquitetura de Modelo do Mundo: O modelo constrói uma compreensão interna do mundo físico, "imaginando" como os objetos se movimentam e interagem, como prever a trajetória de rebatimento de uma bola ou os resultados de colisões entre objetos.

Capacidade de Migração Eficiente: Baseada em uma compreensão básica do mundo físico, o V-JEPA2 pode se adaptar rapidamente a novas tarefas, exibindo uma notável capacidade de aprendizado sem amostras, especialmente notável no domínio de controle de robôs.

Essas inovações tornam o V-JEPA2 superior em tarefas como classificação de vídeo, reconhecimento de ações e detecção de ações espaciais-temporais, superando modelos tradicionais e aumentando a eficiência do treinamento em 1,5 a 6 vezes.

Controle de Robôs Sem Amostras: A Ponte entre IA e o Mundo Real

Uma das aplicações mais impressionantes do V-JEPA2 é o controle de robôs sem amostras. Modelos tradicionais de controle de robôs (como YOLO) exigem treinamento extenso para tarefas específicas, enquanto o V-JEPA2, com sua capacidade de migração poderosa e compreensão do mundo físico, consegue controlar robôs em novas tarefas sem treinamento específico. Por exemplo, o robô pode entender o ambiente em tempo real a partir de entradas de vídeo e executar operações como mover objetos ou navegar em cenários desconhecidos.

A Meta afirma que a capacidade de "modelo do mundo" do V-JEPA2 tem grande potencial no setor de robótica. Por exemplo, robôs podem observar vídeos para entender leis físicas como gravidade e colisões, completando tarefas complexas no mundo real, como cozinhar ou auxiliar nas tarefas domésticas. Essa característica estabelece a base para o desenvolvimento futuro de robôs inteligentes e dispositivos de realidade aumentada (RA).

Comparação de Desempenho: Salto na Velocidade e Eficiência

De acordo com os dados oficiais da Meta, o desempenho do V-JEPA2 é excelente em várias avaliações de benchmarks, especialmente em compreensão de ações e tarefas de vídeo, superando modelos tradicionais como ViT-L/16 e Hiera-L. Em comparação com o modelo Cosmos da NVIDIA, o treinamento do V-JEPA2 é 30 vezes mais rápido, demonstrando uma vantagem notável em eficiência. Além disso, o modelo se destaca particularmente em cenários com poucas amostras, alcançando alta precisão com pequenos volumes de dados rotulados, mostrando sua forte capacidade de generalização.

Compartilhamento Aberto: Impulsionando a Pesquisa Global em IA

Adotando a ideia de ciência aberta, o Meta disponibilizou o V-JEPA2 sob a licença CC-BY-NC, permitindo que pesquisadores e desenvolvedores globais o usem gratuitamente. O código do modelo está disponível no GitHub e pode ser executado em plataformas como Google Colab e Kaggle. Além disso, a Meta lançou três benchmarks de推理 físico (MVPBench, IntPhys2 e CausalVQA), fornecendo ferramentas de avaliação padronizadas para pesquisa nos campos de compreensão de vídeo e controle de robôs.

Perspectiva Futura: Um Marco para Inteligência Geral

O lançamento do V-JEPA2 é um passo importante na busca da **Inteligência Máquina Avançada (AMI)** pela Meta. Yann LeCun declarou em um vídeo: “Os modelos do mundo abrirão uma nova era para a robótica, permitindo que agentes de IA completem tarefas no mundo real sem grandes volumes de dados de treinamento.” No futuro, a Meta planeja expandir ainda mais as funcionalidades do V-JEPA2, adicionando capacidades de análise de áudio e compreensão de vídeos longos, oferecendo suporte mais robusto para aplicativos como óculos de RA e assistentes virtuais.

A AIbase acredita que o lançamento do V-JEPA2 não é apenas um avanço técnico na compreensão de vídeo, mas também um marco no caminho da IA rumo à inteligência geral. Sua capacidade de controle de robôs sem amostras abre infinitas possibilidades para o desenvolvimento de robôs, metaversos e dispositivos de interação inteligente.

Conclusão da AIbase

O V-JEPA2 da Meta, com seu aprendizado auto-supervisionado inovador e arquitetura de modelo do mundo, traz uma transformação disruptiva para os campos de compreensão de vídeo e controle de robôs. Seus amplos horizontes de aplicação prometem ser empolgantes, desde vendas por transmissão ao vivo até a automação doméstica.