Video-Foley
Système de génération de synchronisation audio-vidéo
Produit OrdinaireProductivitéSynthèse sonore vidéoApprentissage auto-supervisé
Video-Foley est un système innovant de génération sonore à partir de vidéos. Il utilise la valeur RMS (Root Mean Square) comme condition d'événements temporels, combinée à des indications sémantiques de timbre (audio ou texte), pour réaliser une synthèse sonore vidéo hautement contrôlable et synchronisée. Ce système utilise un cadre d'apprentissage auto-supervisé sans annotation, comprenant deux phases : Video2RMS et RMS2Sound. Il intègre des concepts novateurs tels que la discrétisation RMS et RMS-ControlNet, combinés à un modèle pré-entraîné texte-vers-audio. Video-Foley atteint des performances de pointe en termes d'alignement et de contrôle de la durée, de l'intensité, du timbre et des détails sonores par rapport à la vidéo.
Video-Foley Dernière situation du trafic
Nombre total de visites mensuelles
254
Taux de rebond
46.24%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00