Vídeos gerados por IA estão se tornando cada vez mais realistas, tornando difícil para humanos (e sistemas de detecção existentes) distinguir entre vídeos reais e falsos. Para resolver esse problema, pesquisadores da Faculdade de Engenharia da Universidade de Columbia, liderados pelo professor de Ciência da Computação Junfeng Yang, desenvolveram uma nova ferramenta chamada DIVID para detectar vídeos gerados por IA, cujo nome completo é DIffusion-generated VIdeo Detector. O DIVID é uma extensão do Raidar, lançado pela equipe no início deste ano, que detecta texto gerado por IA analisando o próprio texto sem acessar os mecanismos internos de grandes modelos de linguagem.
O DIVID aprimora métodos anteriores usados para detectar vídeos gerados, identificando eficazmente vídeos gerados por modelos de IA mais antigos, como Redes Generativas Adversariais (GANs). Uma GAN é um sistema de IA com duas redes neurais: uma para criar dados falsos e outra para avaliá-los e distinguir entre verdadeiros e falsos. Através de feedback contínuo, as duas redes melhoram continuamente, produzindo vídeos sintéticos muito realistas. As ferramentas atuais de detecção de IA procuram por sinais óbvios, como arranjos de pixels anormais, movimentos não naturais ou inconsistências entre quadros, que geralmente não aparecem em vídeos reais.
Ferramentas de geração de vídeo por IA de nova geração, como Sora da OpenAI, Runway Gen-2 e Pika, usam modelos de difusão para criar vídeos. Um modelo de difusão é uma técnica de IA que cria imagens e vídeos transformando gradualmente ruído aleatório em imagens nítidas e realistas. Para vídeos, ele otimiza cada quadro individualmente, garantindo transições suaves, produzindo resultados de alta qualidade e realistas. Este desenvolvimento de vídeos gerados por IA cada vez mais sofisticados apresenta um grande desafio para a detecção de sua autenticidade.
A equipe de Bernadette Young usou uma técnica chamada DIRE (DIffusion Reconstruction Error) para detectar imagens geradas por difusão. DIRE é uma medida da diferença entre uma imagem de entrada e a imagem de saída correspondente reconstruída por um modelo de difusão pré-treinado.
Junfeng Yang, codiretor do Laboratório de Sistemas de Software, tem explorado como detectar texto e vídeo gerados por IA. No início deste ano, com o lançamento do Raidar, Junfeng Yang e seus colaboradores conseguiram detectar texto gerado por IA analisando o próprio texto, sem acessar os mecanismos internos de grandes modelos de linguagem como chatGPT-4, Gemini ou Llama. O Raidar usa modelos de linguagem para reformular ou modificar um texto dado e, em seguida, mede o número de edições feitas pelo sistema no texto dado. Um número maior de edições significa que o texto pode ter sido escrito por um humano, enquanto um número menor de edições significa que o texto pode ter sido gerado por uma máquina.
Junfeng Yang disse: "A percepção que inspirou o Raidar – ou seja, que uma IA geralmente considera a saída de outra IA de alta qualidade, portanto, faz menos edições – é muito poderosa e não se limita ao texto." Ele disse: "Considerando que os vídeos gerados por IA estão se tornando cada vez mais realistas, queríamos usar a percepção do Raidar para criar uma ferramenta que pudesse detectar com precisão vídeos gerados por IA."
Os pesquisadores usaram o mesmo conceito para desenvolver o DIVID. Este novo método de detecção de vídeo gerado pode identificar vídeos gerados por modelos de difusão. O artigo de pesquisa foi publicado em 18 de junho de 2024, na Conferência de Visão Computacional e Reconhecimento de Padrões (CVPR) em Seattle, juntamente com o código-fonte aberto e o conjunto de dados.
Endereço do artigo: https://arxiv.org/abs/2406.09601
Destaques:
- Pesquisadores da Faculdade de Engenharia da Universidade de Columbia desenvolveram uma nova ferramenta, o DIVID, para detectar vídeos gerados por IA, com uma precisão de 93,7%.
- O DIVID é um aprimoramento de métodos anteriores para detectar vídeos gerados por IA de nova geração, podendo identificar vídeos gerados por modelos de difusão, que transformam gradualmente ruído aleatório em imagens de vídeo de alta qualidade e realistas.
- Os pesquisadores expandiram a percepção do Raidar sobre texto gerado por IA para vídeos, usando modelos de linguagem para reformular ou modificar texto ou vídeo e, em seguida, medindo o número de edições feitas pelo sistema no texto ou vídeo para determinar sua autenticidade.