Google DeepMind planea integrar Gemini y Veo para crear un asistente inteligente universal

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Apr 13, 2025

Google, una empresa en constante innovación en el campo de la inteligencia artificial, ha anunciado recientemente un emocionante plan. Demis Hassabis, CEO de Google DeepMind, reveló en el podcast "Possible" que la compañía integrará su modelo de IA Gemini con el modelo de generación de video Veo. Esta iniciativa tiene como objetivo mejorar la comprensión del mundo físico por parte de Gemini, contribuyendo al desarrollo de un asistente digital universal que realmente pueda ayudar a los usuarios en la vida real.

Hassabis señaló que, desde el principio, el modelo Gemini fue diseñado como un sistema multimodal, capaz de procesar varios tipos de datos e información. Dijo: "Nuestra visión es construir un asistente capaz de integrar diversas formas de medios, para que pueda comprender e interactuar mejor con el mundo". Actualmente, el modelo Gemini ya puede generar imágenes, texto y audio, demostrando una potente capacidad multimodal.

Cabe destacar que toda la industria de la IA se está orientando hacia modelos "todo en uno", y muchas empresas están explorando direcciones similares. Por ejemplo, el ChatGPT de OpenAI no solo puede procesar conversaciones de texto, sino que también puede generar imágenes con estilo artístico. Además, Amazon planea lanzar un nuevo modelo "de cualquier cosa a cualquier cosa", con el objetivo de lograr un nivel superior de funcionalidad multimodal.

Hassabis reveló que los datos de entrenamiento del modelo Veo provienen principalmente de la plataforma YouTube de Google. Al analizar una gran cantidad de videos de YouTube, Veo puede aprender eficazmente las leyes físicas del mundo. Señaló: "Veo2, al ver una gran cantidad de videos, puede comprender mejor cómo funciona el mundo real". Esto indica que los datos utilizados en el entrenamiento de Veo no solo son abundantes, sino que también tienen un valor práctico.

Google amplió sus términos de servicio el año pasado para obtener más contenido de YouTube para el entrenamiento de modelos de IA, garantizando la diversidad y precisión de los modelos. Esta estrategia de obtención de datos sin duda proporcionará una base sólida para la combinación de Gemini y Veo, permitiendo que el asistente inteligente que se lanzará próximamente comprenda y responda de manera más completa y profunda a las necesidades de los usuarios.

Con el continuo avance de la tecnología, este plan de Google presagia que los asistentes de IA dejarán de limitarse a tareas individuales y podrán brindar apoyo práctico en múltiples áreas, ofreciendo mayor comodidad a los usuarios.

GeminiAI DeepMinddeGoogle Multimodal ModelodegeneracióndevideoVeo

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El equipo de voz de Doubao presenta una solución automatizada para la producción de audiolibros con múltiples personajes, logrando una producción end-to-end sin intervención humana, desde el texto de una novela hasta el producto final de radio. No se requiere doblaje, edición ni intervención humana, reduciendo los costos y mejorando la eficiencia, con resultados cercanos al nivel profesional, alcanzando una tasa de precisión del 98% en la identificación de personajes.

Oct 29, 2025

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

Liao Qian, ex responsable de productos de inteligencia artificial de CapCut de Bytedance, fundó la empresa 'Contexto extremo', dedicada al desarrollo de Agentes multimodales para marketing. Gracias a su amplia experiencia en el campo de AIGC, logró una ronda de financiación inicial de varios millones de dólares. Liao Qian trabajó previamente en Tencent y Bytedance, y desde 2019 se ha dedicado a la tecnología AIGC, atrayendo la atención del sector.

Oct 29, 2025

130

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, obteniendo 19.05 puntos más que los modelos principales en varias pruebas estándar. Este modelo utiliza solo 0.2 billones de tokens de entrenamiento, teniendo una eficiencia de datos seis veces mayor que la de sus competidores. Su objetivo es lograr una comprensión unificada de la visión, el audio y el texto, impulsando el desarrollo de la capacidad cognitiva multimodal de las máquinas.

Oct 28, 2025

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, rompe el SOTA con 19.05 puntos más

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, que supera en 19.05 puntos a los modelos líderes en pruebas de referencia, logrando un rendimiento excelente con solo 1/6 de los datos de entrenamiento. Este modelo tiene como objetivo permitir que los sistemas de IA comprendan simultáneamente visión, audio y texto, simulando la percepción multisensorial humana.

Oct 28, 2025

$Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre$

Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre

El motor publicitario lanzó un modelo IA propio para gestionar anuncios, usando un marco integral y estrategias de IA contra IA. Este modelo multimodal acelera la revisión, procesando el 90% del material en 10 minutos, superando ampliamente la velocidad manual.....

Oct 27, 2025

140

Ant Group lanza una aplicación multimodal llamada Lingguang, incluye una cámara AGI y ya ha comenzado la prueba interna

La aplicación "Lingguang" de Alipay ha comenzado la prueba interna, admite iniciar sesión con un número de teléfono o Alipay. Su función principal "cámara AGI" puede identificar en tiempo real el contenido del escenario real a través de la lente, permitiendo tomar fotos y hacer preguntas, así como interactuar inteligentemente, demostrando el potencial de las aplicaciones de IA multimodal.

Oct 24, 2025

280

Google presenta de manera importante la plataforma Google Skills, el conocimiento de IA interna se ofrece gratuitamente al público

Google lanza 'Google Skills', plataforma con recursos de formación en IA de DeepMind y Google Cloud para cerrar brechas de habilidades y ofrecer aprendizaje accesible.....

Oct 23, 2025

120

Samsung anuncia su estrategia de gafas inteligentes: lanzamiento en 2026, pantalla AR en 2027, colaboración con Google y grandes figuras de la moda para reinventar el futuro de los dispositivos portátiles

Samsung, Google, Gentle Monster y Warby Parker lanzan gafas con IA con Android XR y Gemini. Buscan fusionar tecnología y moda, redefiniendo la interacción humano-máquina en dos fases.....

Oct 22, 2025

120

El valor de Fal.ai, una empresa emergente de inteligencia artificial multimodal, ha superado los 4 mil millones de dólares y se ha triplicado en seis meses

Fal.ai, startup de IA, recauda $250M a valoración de $4B+, respaldada por Kleiner Perkins y Sequoia. Valoración se triplicó en 3 meses sin comentarios oficiales.....

Oct 22, 2025

TikTok presenta Sa2VA: combinando LLaVA y SAM-2 para una segmentación inteligente multimodal

ByteDance y universidades lanzan Sa2VA, que combina LLaVA para comprensión visual y SAM-2 para segmentación precisa, mejorando el análisis de videos mediante seguimiento detallado de objetos y personajes.....

Oct 21, 2025

100

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Google DeepMind planea integrar Gemini y Veo para crear un asistente inteligente universal

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, rompe el SOTA con 19.05 puntos más

Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre

Ant Group lanza una aplicación multimodal llamada Lingguang, incluye una cámara AGI y ya ha comenzado la prueba interna

Google presenta de manera importante la plataforma Google Skills, el conocimiento de IA interna se ofrece gratuitamente al público

Samsung anuncia su estrategia de gafas inteligentes: lanzamiento en 2026, pantalla AR en 2027, colaboración con Google y grandes figuras de la moda para reinventar el futuro de los dispositivos portátiles

El valor de Fal.ai, una empresa emergente de inteligencia artificial multimodal, ha superado los 4 mil millones de dólares y se ha triplicado en seis meses

TikTok presenta Sa2VA: combinando LLaVA y SAM-2 para una segmentación inteligente multimodal

Noticias de IA relacionadas recomendadas

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, rompe el SOTA con 19.05 puntos más

Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre

Ant Group lanza una aplicación multimodal llamada Lingguang, incluye una cámara AGI y ya ha comenzado la prueba interna

Google presenta de manera importante la plataforma Google Skills, el conocimiento de IA interna se ofrece gratuitamente al público

Samsung anuncia su estrategia de gafas inteligentes: lanzamiento en 2026, pantalla AR en 2027, colaboración con Google y grandes figuras de la moda para reinventar el futuro de los dispositivos portátiles

El valor de Fal.ai, una empresa emergente de inteligencia artificial multimodal, ha superado los 4 mil millones de dólares y se ha triplicado en seis meses

TikTok presenta Sa2VA: combinando LLaVA y SAM-2 para una segmentación inteligente multimodal

GEO Services

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6