Make-An-Audio 2 est une technologie de génération audio-à-partir-de-texte basée sur un modèle de diffusion, développée conjointement par des chercheurs de l'Université de Zhejiang, ByteDance et l'Université chinoise de Hong Kong. Cette technologie utilise des grands modèles linguistiques pré-entraînés (LLM) pour analyser le texte, optimisant ainsi l'alignement sémantique et la cohérence temporelle, ce qui améliore la qualité de l'audio généré. Elle intègre également un débruiteur de diffusion basé sur un transformateur feed-forward pour améliorer les performances de la génération audio de longueur variable et renforcer l'extraction des informations temporelles. De plus, en utilisant les LLM pour convertir un grand nombre de données d'étiquetage audio en un jeu de données audio-texte, le problème de la rareté des données temporelles est résolu.