Récemment, l'équipe ARC de Tencent a lancé un modèle appelé AudioStory, visant à générer des récits audio longs en utilisant des modèles de langage à grande échelle (LLMs). Ce modèle résout les avantages des technologies existantes de génération audio à partir de texte dans le traitement des courts extraits audio, tout en répondant aux défis liés à la cohérence temporelle et à la raisonnement compositionnel dans les récits audio longs.
Le cœur d'AudioStory repose sur un cadre d'interprétation et de génération unifié. Ce modèle est capable de traiter diverses tâches telles que la voix off vidéo, la continuation audio et la synthèse de récits audio longs. En combinant des modèles de langage à grande échelle avec un système de génération audio, AudioStory peut générer des récits audio structurés et cohérents dans le temps. Le modèle dispose d'une forte capacité de génération de raisonnement suivant les instructions, pouvant décomposer des requêtes narratives complexes en sous-tâches ordonnées chronologiquement, tout en maintenant la cohérence des transitions de scènes et la constance du ton émotionnel.
Deux caractéristiques notables d'AudioStory sont : premièrement, un mécanisme de pont découplé, qui permet efficacement de diviser la collaboration entre les grands modèles de langage et le générateur audio en deux parties spécialisées ; deuxièmement, une méthode d'entraînement en boucle complète, qui unifie la compréhension des instructions et la génération audio, améliorant ainsi l'efficacité de la coordination entre les composants.
En outre, l'équipe de recherche a créé un ensemble de données de référence appelé AudioStory-10K, couvrant divers domaines tels que les sons d'anime et les narrations sonores naturelles. À travers de nombreuses expériences, AudioStory dépasse les modèles précédents de génération audio à partir de texte, tant dans la génération audio unique que dans la génération de récits audio, démontrant une excellente capacité à suivre les instructions et une qualité audio élevée.
À ce jour, l'équipe a publié le code d'inférence du modèle et a présenté une série de vidéos de démonstration, notamment un exemple de doublage pour l'animation classique "Tom et Jerry", ainsi qu'un cas d'application de génération d'audio long à partir de texte, illustrant ainsi l'application large et la puissance du modèle.
Projet : https://github.com/TencentARC/AudioStory
Points clés :
🎧 **AudioStory est un modèle de génération de récits audio longs développé par l'ARC de Tencent, combinant des modèles de langage à grande échelle et des technologies de génération audio.**
📊 **Le modèle dispose d'une forte capacité à suivre les instructions, pouvant générer des récits audio cohérents, améliorant ainsi l'expérience utilisateur.**
🛠️ **L'équipe a publié le code d'inférence et présenté plusieurs cas d'application, montrant ses avantages dans le doublage vidéo et la génération d'audio long.**