NaturalSpeech 3 : Un système de synthèse vocale innovant

Le site web "Stationmaster Home" a rapporté le développement d'un système innovant de synthèse vocale appelé NaturalSpeech 3. Ce système utilise un codec de décomposition et un modèle de diffusion pour générer une parole naturelle sans aucun exemple préalable (zero-shot). Grâce à un codec neuronal, il permet une modélisation précise des formes d'ondes vocales et a démontré d'excellents résultats lors de plusieurs tests de référence, surpassant les systèmes TTS existants.

Les chercheurs recommandent de renforcer les modèles de détection de la parole synthétique afin de prévenir les risques d'utilisation abusive, conformément aux principes d'IA responsable de Microsoft.