Suno hat kürzlich mit einem geheimnisvollen Vorab-Video weltweit für Aufmerksamkeit gesorgt: Die fünfte Generation des Musikmodells „v5“ wird voraussichtlich bald veröffentlicht. Dieser Antrag wird in der Branche als ein „revolutionärer“ Meilenstein im Bereich der KI-Musikproduktion betrachtet und wird voraussichtlich die Grenzen zwischen menschlicher Komposition und maschinengenerierter Musik weiter verwischen und den Zugang zur Musikproduktion von Hobbyisten bis hin zu Profis stark senken.
Am Abend des 18. September hat Suno offiziell ein 15-Sekunden-Video auf sozialen Medien veröffentlicht. Auf dem Video flackern abstrakte Noten und Lichteffekte, begleitet von einer tiefen elektronischen Melodie, und endet mit der Schrift „coming soon...“. Dieses Video sammelte schnell über 100.000 Aufrufe und löste innerhalb weniger Stunden tausende Diskussionen aus.
Obwohl das Video keine konkrete Veröffentlichungszeit enthüllte, deutet die bisherige Iterationsgeschwindigkeit von Suno darauf hin, dass die offizielle Vorstellung von v5 in diesem Monat oder bis Ende des Jahres erfolgen könnte. Dies wäre eine bedeutende Verbesserung nach dem im Mai dieses Jahres veröffentlichten Modell v4.5, das die Dauer der Erstellung einzelner Stücke auf acht Minuten erweitert und die Genauigkeit der Stilzuordnung sowie die Emotionstiefe der Gesangspassagen erheblich verbessert hat.
Die Veröffentlichung von v4.5 markiert einen Übergang von Suno von reinen Text-Anweisungen zur Erzeugung von Audio zu einer feineren audioeditierenden Funktion, einschließlich Funktionen wie „Gesang hinzufügen“ und „Instrumental hinzufügen“. Diese Tools ermöglichen es Benutzern, vorhandene Tracks hochzuladen und Elemente über die KI zu überlagern, um Produkte zu generieren, die dem Studio-Niveau nahekommen.
Laut Plattformdaten überschritt die Gesamtanzahl der Wiedergaben von Benutzererzeugnissen nach der Einführung von v4.5 mehrere Milliarden Mal, was die Potenzial von KI im Bereich der Musik-Demokratisierung beweist. Dennoch werden höhere Erwartungen an v5 gestellt: In sozialen Diskussionen prognostizieren mehrere KI-Musik-Kreationen, dass es fortgeschrittenere semantische Kontrollen und multimodale Eingaben (wie beispielsweise die Kombination von Bildern oder Sprachanweisungen) einführen wird, um die aktuellen Probleme bei komplexen Strukturen und natürlichen Übergängen noch weiter zu lösen.