El equipo de investigación de Google ha lanzado recientemente la tecnología ReCapture, que está revolucionando la edición de vídeo tradicional. Esta innovación permite a los usuarios comunes realizar ajustes profesionales en el movimiento de la cámara, rediseñando el lenguaje cinematográfico de vídeos ya grabados.
En la postproducción de vídeo tradicional, cambiar el ángulo de cámara de un vídeo ya grabado siempre ha sido un desafío técnico. Las soluciones existentes, al procesar diferentes tipos de contenido de vídeo, suelen tener dificultades para mantener simultáneamente efectos de cámara complejos y detalles de imagen. ReCapture adopta un enfoque diferente, sin utilizar el método tradicional de representación intermedia 4D, sino aprovechando inteligentemente el conocimiento del movimiento almacenado en los modelos de vídeo generativos, y redefine la tarea como un proceso de conversión de vídeo a vídeo mediante Stable Video Diffusion.
Este sistema utiliza un flujo de trabajo de dos fases. La primera fase genera un "vídeo de anclaje", que es la versión de salida inicial con la nueva posición de la cámara. Esta fase puede crear vídeos multiangulares mediante modelos de difusión como CAT3D, o mediante la estimación de profundidad fotograma a fotograma y el renderizado de nubes de puntos. Aunque esta versión puede presentar algunas inconsistencias temporales y defectos visuales, sienta las bases para la segunda fase.
La segunda fase aplica un ajuste fino de vídeo con máscara, utilizando modelos de vídeo generativos entrenados en material existente para crear efectos de movimiento y cambios temporales realistas. El sistema introduce capas temporales LoRA (Low-Rank Adaptation) para optimizar el modelo, permitiéndole comprender y replicar las características dinámicas específicas del vídeo de anclaje sin necesidad de volver a entrenar todo el modelo. Simultáneamente, las capas espaciales LoRA garantizan que los detalles y el contenido de la imagen sean coherentes con el nuevo movimiento de la cámara. Esto permite que el modelo de vídeo generativo realice operaciones como zoom, panorámica e inclinación, manteniendo al mismo tiempo el movimiento de las características del vídeo original.
Aunque ReCapture ha logrado avances importantes en el procesamiento de vídeo fácil de usar, todavía se encuentra en fase de investigación y su aplicación comercial aún está lejos. Cabe destacar que, aunque Google posee numerosos proyectos de IA de vídeo, aún no los ha lanzado al mercado; el proyecto Veo es posiblemente el más cercano a la comercialización. Del mismo modo, el modelo Movie-Gen recientemente lanzado por Meta y Sora, lanzado por OpenAI a principios de año, tampoco se han comercializado. Actualmente, el mercado de la IA de vídeo está liderado principalmente por empresas emergentes como Runway, que lanzó su último modelo Gen-3Alpha el verano pasado.