Dans le contexte de l'essor fulgurant des technologies, la synthèse vocale a également fait des progrès considérables, notamment dans le domaine de la restauration de la voix perdue. Récemment, des chercheurs de Google ont présenté une nouvelle technologie appelée « transfert vocal à zéro échantillon (zero-shot voice transfer) ». Cette technologie peut être directement combinée avec les systèmes de synthèse vocale texte-parole (TTS) les plus avancés pour aider les personnes ayant perdu leur voix en raison d'une maladie ou d'un accident à retrouver leur « mémoire vocale ».
Le cœur de cette technologie réside dans sa capacité « zéro échantillon », ce qui signifie qu'un grand nombre d'échantillons n'est pas nécessaire pour réaliser la conversion vocale. Autrement dit, quelques secondes d'audio de référence suffisent pour cloner une voix et permettre la synthèse d'audio multilingue.
« Clonage vocal zéro échantillon »
L'équipe de recherche a utilisé des échantillons audio provenant de la banque de données vocales VCTK pour démontrer la puissance de cette technologie. Par exemple, en utilisant des systèmes audio préenregistrés en mandarin, anglais et espagnol, il est possible de simuler les caractéristiques sonores de ces langues et de générer une synthèse vocale proche de la voix originale.
Lien du projet : https://google.github.io/tacotron/publications/zero_shot_voice_transfer/
Ce qui est étonnant, c'est que cette conversion ne se limite pas à une seule langue. L'étude a également démontré les capacités multilingues de la technologie. Par exemple, l'équipe de recherche a utilisé des échantillons vocaux en anglais pour synthétiser des voix en français, allemand et même en arabe, offrant des résultats impressionnants.
Pour valider l'efficacité de la technologie, les chercheurs ont mené de nombreuses expériences, notamment en collaboration avec des locuteurs ayant des prononciations spécifiques. Ils ont réussi à générer des voix similaires à partir d'échantillons audio de seulement 12 et 14 secondes, démontrant ainsi la grande adaptabilité de cette technologie.
Lors des tests, les chercheurs ont étendu cette technologie à six langues différentes, démontrant ainsi sa flexibilité et son utilité.
Exemples multilingues :
La mise en œuvre de cette technologie permettra non seulement d'aider les personnes aphoniques à retrouver leur voix, mais elle ouvrira également de nouvelles possibilités pour la communication interlinguistique, améliorant ainsi l'efficacité et la commodité de la communication accessible à tous. On peut dire que l'apparition de la technologie de transfert vocal à zéro échantillon rendra nos vies plus riches et plus colorées, permettant à chacun de naviguer dans l'océan des langues et de profiter du plaisir de la communication.
Points clés
🎤 ** Technologie de transfert vocal à zéro échantillon : une technologie de synthèse vocale ne nécessitant pas un grand nombre d'échantillons, capable d'aider les personnes aphoniques à retrouver leur voix.
🌍 ** Capacités multilingues : la technologie permet la conversion vocale entre différentes langues, enrichissant considérablement les possibilités d'échange vocal.
🗣️ ** Application aux locuteurs ayant des prononciations spécifiques : à partir de courts échantillons audio, l'équipe a réussi à synthétiser la voix de locuteurs ayant des prononciations spécifiques, démontrant ainsi l'adaptabilité et la flexibilité de la technologie.