Make-An-Audio 2 ist eine auf Diffusionsmodellen basierende Text-to-Audio-Generierungstechnologie, die gemeinsam von Forschern der Zhejiang-Universität, ByteDance und der Chinesischen Universität Hongkong entwickelt wurde. Die Technologie verwendet vortrainierte Large Language Models (LLMs) zur Textanalyse, optimiert die semantische Ausrichtung und zeitliche Konsistenz und verbessert so die Qualität der generierten Audiodaten. Es wurde außerdem ein auf Feedforward-Transformer basierender Diffusions-Denoiser entwickelt, um die Leistung bei der Generierung von Audiodaten variabler Länge zu verbessern und die Extraktion zeitlicher Informationen zu verstärken. Darüber hinaus wurde durch die Verwendung von LLMs zur Umwandlung umfangreicher Audio-Label-Daten in Audio-Text-Datensätze das Problem der Knappheit zeitlicher Daten gelöst.