Google, una empresa en constante innovación en el campo de la inteligencia artificial, ha anunciado recientemente un emocionante plan. Demis Hassabis, CEO de Google DeepMind, reveló en el podcast "Possible" que la compañía integrará su modelo de IA Gemini con el modelo de generación de video Veo. Esta iniciativa tiene como objetivo mejorar la comprensión del mundo físico por parte de Gemini, contribuyendo al desarrollo de un asistente digital universal que realmente pueda ayudar a los usuarios en la vida real.

Hassabis señaló que, desde el principio, el modelo Gemini fue diseñado como un sistema multimodal, capaz de procesar varios tipos de datos e información. Dijo: "Nuestra visión es construir un asistente capaz de integrar diversas formas de medios, para que pueda comprender e interactuar mejor con el mundo". Actualmente, el modelo Gemini ya puede generar imágenes, texto y audio, demostrando una potente capacidad multimodal.

image.png

Cabe destacar que toda la industria de la IA se está orientando hacia modelos "todo en uno", y muchas empresas están explorando direcciones similares. Por ejemplo, el ChatGPT de OpenAI no solo puede procesar conversaciones de texto, sino que también puede generar imágenes con estilo artístico. Además, Amazon planea lanzar un nuevo modelo "de cualquier cosa a cualquier cosa", con el objetivo de lograr un nivel superior de funcionalidad multimodal.

Hassabis reveló que los datos de entrenamiento del modelo Veo provienen principalmente de la plataforma YouTube de Google. Al analizar una gran cantidad de videos de YouTube, Veo puede aprender eficazmente las leyes físicas del mundo. Señaló: "Veo2, al ver una gran cantidad de videos, puede comprender mejor cómo funciona el mundo real". Esto indica que los datos utilizados en el entrenamiento de Veo no solo son abundantes, sino que también tienen un valor práctico.

Google amplió sus términos de servicio el año pasado para obtener más contenido de YouTube para el entrenamiento de modelos de IA, garantizando la diversidad y precisión de los modelos. Esta estrategia de obtención de datos sin duda proporcionará una base sólida para la combinación de Gemini y Veo, permitiendo que el asistente inteligente que se lanzará próximamente comprenda y responda de manera más completa y profunda a las necesidades de los usuarios.

Con el continuo avance de la tecnología, este plan de Google presagia que los asistentes de IA dejarán de limitarse a tareas individuales y podrán brindar apoyo práctico en múltiples áreas, ofreciendo mayor comodidad a los usuarios.