De acordo com os últimos relatos do departamento de pesquisa da Google, seu modelo de geração de vídeos Veo3 alcançou avanços significativos na área de inteligência artificial visual, sendo considerado um "momento GPT-3". Após uma série de testes no Veo3, os pesquisadores descobriram que esse modelo não se limita apenas à geração de vídeos, mas também pode completar automaticamente várias tarefas visuais complexas sem treinamento adicional.
Ao testar o Veo3 com 18.384 tarefas mais simples de geração de vídeos, o Veo3 demonstrou uma versatilidade impressionante, incluindo a capacidade de encontrar objetos, restaurar fotos, jogar labirintos e resolver sudokus. Mais especificamente, o Veo3 pode:
Compreender imagens: Identificar automaticamente elementos visuais básicos em uma imagem, como bordas, contornos, posição dos objetos, cores e formas.
Compreender princípios físicos: Possuir conhecimento básico de física, por exemplo, distinguir quais objetos flutuam e quais afundam, e compreender como a luz é refletida.
Realizar edições manuais: Como uma versão automática do Photoshop, o Veo3 pode executar tarefas complexas de edição de imagens, como remover fundos, adicionar textos ou transformar fotos em estilos de pintura a óleo.
Possuir capacidade "racional": Diante de uma imagem de labirinto, ele pode planejar e desenhar automaticamente um caminho para atravessá-lo.





