Kürzlich wurde das Open-Source-Musikgenerierungsmodell YuE, eine gemeinsame Entwicklung der Hong Kong University of Science and Technology und dem Musiktechnologieunternehmen DeepSeek, veröffentlicht und hat sowohl Musikfans als auch -produzenten beeindruckt. Dieses Modell kann nicht nur Musik in verschiedenen Stilen generieren, sondern auch Gesang simulieren und bietet so ein völlig neues Musikerlebnis.
Das Besondere an YuE ist seine Architektur mit zwei LLaMA-Sprachmodellen. Dies ermöglicht eine nahtlose Integration mit verschiedenen großen Sprachmodellen und die Verarbeitung vollständiger Songs mit einer Länge von bis zu 5 Minuten. Dieses innovative Design hat die Qualität der Musikgenerierung auf ein bisher unerreichtes Niveau gehoben und kann sogar mit bekannten, geschlossenen Musikgenerierungs-Tools wie Suno und Udio mithalten. YuE generiert gleichzeitig professionelle Gesangsspuren und Begleitmusik und ermöglicht so eine End-to-End-Musikproduktion.
Das Forschungsteam hat in YuE die Strategie der „Zweispur-Next-Token-Vorhersage“ eingeführt, bei der Gesang und Begleitspur separat modelliert werden, um die Feinheit und Konsistenz der Musikproduktion zu gewährleisten. Diese Methode verbessert nicht nur die Klangqualität, sondern reduziert auch den Informationsverlust während des Rekonstruktionsprozesses deutlich. Darüber hinaus ermöglicht die „strukturierte progressive Generierung“ von YuE das alternierende Generieren von Strophen und Refrains im selben Kontext, was die Kohärenz des Songs weiter verbessert.
Um Plagiate zu vermeiden, wurde in YuE eine einzigartige Technologie zum Lernen von musikalischem Kontext entwickelt. Dadurch kann das Modell aus bestehenden Musikfragmenten lernen, ohne diese zu wiederholen. Diese Innovation verbessert nicht nur die Musikalität des Modells, sondern auch die Einzigartigkeit seiner Kreationen. Schließlich hat YuE in mehreren Tests herausragende Leistungen gezeigt und positive Kritiken von Nutzern erhalten.
Mit der Veröffentlichung von YuE wird die Zukunft der Musikproduktion noch vielversprechender. Egal ob professioneller Musiker oder Hobbyist, jeder kann auf dieser Plattform den Spaß am Musikmachen mit KI erleben.
Projekt-Adresse: https://github.com/multimodal-art-projection/YuE