MarDini es un modelo de difusión de video desarrollado por Meta AI Research que integra las ventajas del autorregresivo enmascarado (MAR) en un marco de modelo de difusión unificado (DM). Este modelo puede generar video a partir de un número arbitrario de fotogramas enmascarados en cualquier posición de fotograma, admitiendo diversas tareas de generación de video como interpolación de video, generación de video a partir de imágenes y extensión de video. El diseño eficiente de MarDini asigna la mayoría de los recursos computacionales a un modelo de planificación de baja resolución, lo que permite la atención espacio-temporal a gran escala. MarDini establece un nuevo estándar en la interpolación de video y genera videos comparables a los modelos de imagen a video de nivel superior más costosos en pocas etapas de inferencia.