O Google, um inovador constante no campo da inteligência artificial, anunciou recentemente um plano emocionante. Demis Hassabis, CEO do Google DeepMind, revelou no podcast Possible que a empresa integrará seu modelo de IA Gemini com o modelo de geração de vídeo Veo. Essa iniciativa visa melhorar a compreensão do Gemini sobre o mundo físico, ajudando a desenvolver um assistente digital universal que realmente possa ajudar os usuários na vida real.

Hassabis apontou que, desde o início, o modelo Gemini foi projetado como um sistema multimodal, capaz de processar vários tipos de dados e informações. Ele disse: "Nossa visão é construir um assistente que possa integrar várias formas de mídia, para que ele possa entender e interagir melhor com o mundo." Atualmente, o modelo Gemini já consegue gerar imagens, texto e áudio, demonstrando uma poderosa capacidade multimodal.

image.png

É importante notar que todo o setor de IA está se movendo em direção a modelos "onipresentes", e muitas empresas estão explorando direções semelhantes. Por exemplo, o ChatGPT da OpenAI não apenas pode lidar com conversas de texto, mas também pode gerar imagens em estilo artístico. Além disso, a Amazon planeja lançar um novo modelo "qualquer para qualquer", com o objetivo de alcançar um nível superior de funcionalidade multimodal.

Hassabis revelou que os dados de treinamento do modelo Veo vêm principalmente da plataforma YouTube, do Google. Ao analisar uma grande quantidade de vídeos do YouTube, o Veo consegue aprender efetivamente as leis físicas do mundo. Ele apontou: "O Veo2, ao assistir a uma grande quantidade de vídeos, consegue entender melhor como o mundo real funciona." Isso indica que os dados usados no treinamento do Veo não são apenas abundantes, mas também têm valor prático.

O Google ampliou seus termos de serviço no ano passado para obter mais conteúdo do YouTube para o treinamento de modelos de IA, garantindo a diversidade e precisão dos modelos. Essa estratégia de aquisição de dados certamente fornecerá uma base sólida para a combinação do Gemini e do Veo, permitindo que o assistente inteligente que será lançado entenda e responda às necessidades dos usuários de forma mais completa e profunda.

Com o avanço contínuo da tecnologia, este plano do Google indica que os assistentes de IA não se limitarão mais a tarefas únicas, mas serão capazes de fornecer suporte prático em várias áreas, trazendo mais conveniência para a vida dos usuários.