A pesar de los avances significativos en el campo de la generación de video en los últimos años, los modelos generativos existentes aún tienen dificultades para capturar de forma realista movimientos, dinámicas y fenómenos físicos complejos. Esta limitación se debe principalmente al objetivo tradicional de reconstrucción de píxeles, un método que tiende a priorizar la verosimilitud visual, descuidando la coherencia del movimiento.
Para abordar este problema, el equipo de investigación de Meta ha propuesto un nuevo marco llamado VideoJAM, diseñado para incorporar un prior efectivo de movimiento a los modelos de generación de video mediante el fomento del aprendizaje de una representación conjunta de apariencia-movimiento.
El marco VideoJAM consta de dos unidades complementarias. Durante la fase de entrenamiento, el marco amplía el objetivo para predecir simultáneamente los píxeles generados y el movimiento correspondiente, ambos derivados de una única representación aprendida.
En la fase de inferencia, el equipo de investigación introduce un mecanismo llamado "guía intrínseca", que utiliza la predicción de movimiento en constante evolución del propio modelo como señal de guía dinámica para dirigir el proceso de generación hacia una dirección de movimiento coherente. Cabe destacar que VideoJAM se puede aplicar a cualquier modelo de generación de video sin necesidad de modificar los datos de entrenamiento ni ampliar el modelo.
Tras su validación, VideoJAM ha alcanzado un nivel líder en la industria en cuanto a coherencia del movimiento, superando a varios modelos propietarios de alta competencia, y también ha mejorado la calidad visual de las imágenes generadas. Este resultado de investigación destaca la relación complementaria entre la apariencia y el movimiento; cuando ambos se combinan eficazmente, se puede mejorar significativamente el efecto visual y la coherencia del movimiento en la generación de video.
Además, el equipo de investigación ha demostrado el excelente rendimiento de VideoJAM-30B en la generación de tipos de movimiento complejos, incluyendo escenas como saltos de skaters y giros de bailarinas de ballet sobre un lago. En comparación con el modelo base DiT-30B, se ha observado una mejora significativa en la calidad de la generación de movimiento.
Enlace al proyecto: https://hila-chefer.github.io/videojam-paper.github.io/
Puntos clave:
🌟 El marco VideoJAM mejora el rendimiento del movimiento de los modelos de generación de video mediante una representación conjunta de apariencia-movimiento.
🎥 Durante el entrenamiento, VideoJAM puede predecir simultáneamente píxeles y movimiento, mejorando la coherencia del contenido generado.
🏆 Tras su validación, VideoJAM ha superado a varios modelos de la competencia tanto en coherencia de movimiento como en calidad visual.