MuVi es un marco innovador que genera música que coincide con el estado de ánimo, el tema, el ritmo y el tempo del vídeo extrayendo características contextuales y temporales del contenido del vídeo. El marco introduce un esquema de preentrenamiento contrastivo música-visión para asegurar la sincronización periódica de las frases musicales, y demuestra que un generador de música basado en el ajuste de flujo tiene capacidad de aprendizaje contextual, permitiendo controlar el estilo y el tipo de música generada. MuVi muestra un rendimiento superior en cuanto a calidad de audio y sincronización temporal, ofreciendo nuevas soluciones para la fusión de contenido de audio y vídeo y experiencias inmersivas.