Google DeepMind ha anunciado hoy la introducción de una revolucionaria función de "edición precisa" para su modelo líder de generación de videos Veo. Esta función permite a los usuarios agregar o eliminar elementos, como accesorios, personajes o objetos del fondo, en videos existentes mediante simples instrucciones de texto, mientras que el sistema reconstruye inteligentemente la escena para garantizar realismo físico y coherencia visual, manteniendo perfectamente la integridad del video original.

Según AIbase, esta actualización marca un cambio hacia una edición posterior más precisa en lugar de la generación bruta, lo que aumentará significativamente la eficiencia de producción de los creadores en la plataforma Flow. La función de edición precisa de Veo forma parte de la actualización Veo3.1, diseñada específicamente para las herramientas de producción cinematográfica de Google, Flow. Utiliza algoritmos avanzados de inteligencia artificial generativa, considerando iluminación, proporción, interacción de objetos y trayectorias de movimiento, para realizar modificaciones sinuosas.

Por ejemplo, los usuarios pueden indicar "añadir un autobús amarillo a la escena" o "eliminar a un peatón al borde de la carretera", y el modelo rellenará automáticamente el fondo, ajustará las sombras y mantendrá la consistencia del movimiento de la cámara, evitando problemas comunes como "saltos de fotogramas" o marcas artificiales en los software de edición tradicionales. En el video de demostración, esta función muestra todo el proceso desde una imagen estática hasta una narrativa dinámica con múltiples tomas, permitiendo a los usuarios iterar el contenido en unos pocos segundos sin necesidad de volver a filmar o usar máscaras manuales.

 Según el análisis de AIbase, los principales avances del Veo3.1 incluyen una sincronización de audio mejorada, generación de escenas con múltiples indicaciones y salida nativa en 1080p, admitiendo extensiones de video hasta un minuto. Esto hace que la edición precisa no solo sea útil para creadores de cortos, sino también para anuncios, marketing y capacitación empresarial. Por ejemplo, en Flow, los usuarios pueden cargar "componentes" (como personajes definidos previamente o referencias de estilo), y luego extender las tomas mediante edición precisa, logrando una automatización desde un solo fotograma hasta un storyboard completo. En comparación con la versión anterior Veo3, este modelo mejora en más del 30% la consistencia de los personajes y el control narrativo, según pruebas de referencia, la precisión de edición alcanza un 95%, superando significativamente a competidores como Sora2 de OpenAI. "La edición precisa democratiza verdaderamente la creación de videos con IA, permitiendo a los usuarios realizar modificaciones de nivel de Hollywood sin necesidad de habilidades profesionales,"

DeepMind declaró en su blog oficial que esta función ya se ha integrado en herramientas experimentales de Flow, accesibles primero para usuarios con suscripciones Google AI Pro y Ultra. Los desarrolladores pueden previsualizar aplicaciones empresariales a través de la plataforma Vertex AI, incluyendo optimizaciones personalizadas para voz y eliminación de objetos. Anteriormente, Veo ya había mostrado capacidades similares a la inpainting en los modelos Imagen3 y Chirp3, impulsando la inteligencia artificial de videos desde etapas experimentales hacia una preparación para producción. Con el aumento de la demanda de herramientas eficientes por parte de los creadores de contenido, la edición precisa de Veo promete transformar el ecosistema de narrativas digitales, beneficiando tanto a películas independientes como a videos cortos en redes sociales.