CustomVideo est un framework innovant conçu pour générer des vidéos conservant une identité cohérente à travers plusieurs thèmes. Ce produit encourage d'abord l'apparition simultanée de multiples thèmes, puis met en œuvre une stratégie de contrôle de l'attention simple et efficace, basée sur un modèle de diffusion texte-vers-vidéo de base, pour dissocier les différents thèmes dans l'espace latent du modèle de diffusion. De plus, ce produit assiste le modèle en segmentant les objets à partir d'une image de référence donnée et en fournissant un masque d'objet correspondant pour l'apprentissage de l'attention, afin de concentrer l'attention sur des zones d'objets spécifiques. Parallèlement, nous avons rassemblé un jeu de données de génération de vidéos à partir de texte multi-thématique comme référence complète, incluant 69 thèmes individuels et 57 paires significatives. De nombreux résultats qualitatifs, quantitatifs et issus d'études utilisateurs démontrent la supériorité significative de notre méthode par rapport aux approches de pointe antérieures.