Google DeepMind planeja integrar Gemini e Veo para criar um assistente inteligente multifuncional

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Apr 13, 2025

O Google, um inovador constante no campo da inteligência artificial, anunciou recentemente um plano emocionante. Demis Hassabis, CEO do Google DeepMind, revelou no podcast Possible que a empresa integrará seu modelo de IA Gemini com o modelo de geração de vídeo Veo. Essa iniciativa visa melhorar a compreensão do Gemini sobre o mundo físico, ajudando a desenvolver um assistente digital universal que realmente possa ajudar os usuários na vida real.

Hassabis apontou que, desde o início, o modelo Gemini foi projetado como um sistema multimodal, capaz de processar vários tipos de dados e informações. Ele disse: "Nossa visão é construir um assistente que possa integrar várias formas de mídia, para que ele possa entender e interagir melhor com o mundo." Atualmente, o modelo Gemini já consegue gerar imagens, texto e áudio, demonstrando uma poderosa capacidade multimodal.

É importante notar que todo o setor de IA está se movendo em direção a modelos "onipresentes", e muitas empresas estão explorando direções semelhantes. Por exemplo, o ChatGPT da OpenAI não apenas pode lidar com conversas de texto, mas também pode gerar imagens em estilo artístico. Além disso, a Amazon planeja lançar um novo modelo "qualquer para qualquer", com o objetivo de alcançar um nível superior de funcionalidade multimodal.

Hassabis revelou que os dados de treinamento do modelo Veo vêm principalmente da plataforma YouTube, do Google. Ao analisar uma grande quantidade de vídeos do YouTube, o Veo consegue aprender efetivamente as leis físicas do mundo. Ele apontou: "O Veo2, ao assistir a uma grande quantidade de vídeos, consegue entender melhor como o mundo real funciona." Isso indica que os dados usados no treinamento do Veo não são apenas abundantes, mas também têm valor prático.

O Google ampliou seus termos de serviço no ano passado para obter mais conteúdo do YouTube para o treinamento de modelos de IA, garantindo a diversidade e precisão dos modelos. Essa estratégia de aquisição de dados certamente fornecerá uma base sólida para a combinação do Gemini e do Veo, permitindo que o assistente inteligente que será lançado entenda e responda às necessidades dos usuários de forma mais completa e profunda.

Com o avanço contínuo da tecnologia, este plano do Google indica que os assistentes de IA não se limitarão mais a tarefas únicas, mas serão capazes de fornecer suporte prático em várias áreas, trazendo mais conveniência para a vida dos usuários.

Modelo multimodal Xiaomi MiMo-VL é aberto ao público

Recentemente, o modelo multimodal MiMo-VL desenvolvido pela Companhia Xiaomi assumiu o bastão do MiMo-7B e demonstrou uma grande capacidade em várias áreas. O modelo supera de maneira significativa modelos multimodais benchmarks com a mesma dimensionalidade, como o Qwen2.5-VL-7B, em diversas tarefas como questionamento e compreensão generalizada de imagens, vídeos e linguagem; sua performance na tarefa de GUI Grounding é ainda comparável à de modelos especializados, preparando-se para a chegada da era dos Agentes.

CoGenAV, o modelo de representação de voz multimodal lançado pela Qwen, pode realizar a percepção sincronizada de áudio e vídeo

Recentemente, o grande modelo Qwen lançou o CoGenAV, inovando a tecnologia de reconhecimento de voz com a ideia de sincronização de áudio e vídeo. Ele resolve eficazmente o problema de interferência de ruído no reconhecimento de voz. O reconhecimento tradicional de voz apresenta desempenho fraco em ambientes com ruído, enquanto o CoGenAV segue uma abordagem diferente. Ele aprende as relações de alinhamento temporal entre audio-visual-texto, construindo um quadro mais robusto e universal para representação de voz, melhorando sistematicamente as tarefas de reconhecimento de voz (VSR/AVSR), reconstrução de voz (AVSS/AVSE) e sincronização de voz (A...)

Avaliação da capacidade de inferência visual do modelo multimodal o3: apenas 25,8% das respostas corretas

Recentemente, uma nova base de avaliação foi lançada por uma equipe de pesquisa formada por membros da Universidade de Qinghua, Tencent Huan Yuan, Stanford University e Carnegie Mellon University. Esta base, chamada RBench-V, foi projetada para testar a capacidade de inferência visual de modelos multimodais. O lançamento dessa ferramenta visa preencher a lacuna no atual sistema de avaliação em relação à capacidade de saída visual dos modelos, permitindo uma compreensão mais abrangente de seu desempenho. A base RBench-V contém 803 questões que abordam várias áreas, incluindo geometria e teoria dos grafos, mecânica e eletromagnetismo, reconhecimento de múltiplos objetos e planejamento de rotas.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Google DeepMind planeja integrar Gemini e Veo para criar um assistente inteligente multifuncional

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Lançamento da versão Gemini2.5 com recurso de áudio nativo, tornando os diálogos de IA mais naturais

Panasonic lança OmniFlow, um IA gerativa multimodal que permite a conversão livre entre texto, imagem e áudio

Relatório diário de IA: IDE de IA Tongyi Lingma da Alibaba Cloud foi lançado; o modelo grande multimodal Xiaomi MiMo-VL foi open source; Laboratório Black Forest lançou o FLUX.1Kontext

Modelo multimodal Xiaomi MiMo-VL é aberto ao público

CoGenAV, o modelo de representação de voz multimodal lançado pela Qwen, pode realizar a percepção sincronizada de áudio e vídeo

Avaliação da capacidade de inferência visual do modelo multimodal o3: apenas 25,8% das respostas corretas

Boletim diário de IA: Anthropic lança o mais forte modelo de IA codificadora Claude4; Apple planeja lançar óculos inteligentes de IA; ByteDance e Tsinghua lançam modelo de grande escala multimodal ChatTS

Quebra de barreiras no gerenciamento de multimodalidade do ByteDance: nova conquista na geração e edição de imagens com texto

O Salesforce BLIP3-o está oficialmente no Hugging Face! Modelo multimodal de código aberto, compreensão e geração de imagens unificadas!

Ollama lança nova engine de IA multimodal com melhoria significativa no desempenho de inferência