Stability AI hat zusammen mit dem Chip-Giganten Arm offiziell den Stable Audio Open Small als Open-Source-Modell veröffentlicht. Es handelt sich um ein 341-Millionen-Parameter-Modell zur Text-zu-Audio-Generierung, das speziell für mobile Geräte optimiert wurde. Dieses leichte Modell kann auf Arm-CPU lokal laufen und hochwertigen Stereoton generieren. Es markiert einen wichtigen Schritt in Richtung Kanteingerechnung und mobile Geräte in der KI-Audioerzeugungstechnologie.
Technische Highlights: Leichtgewichtig und effizient, lokale Generierung auf mobilen Geräten
Stable Audio Open Small basiert auf dem zuvor von Stability AI veröffentlichten Stable Audio Open-Modell. Durch tiefgehende Optimierungen wurde die Anzahl der Parameter von 1,1B auf 341M reduziert, was die Berechnungsanforderungen erheblich senkt. Dank der Unterstützung der KleidiAI-Bibliothek von Arm kann das Modell auf Smartphones bis zu 11 Sekunden lang 44,1 kHz Stereo-Ton generieren, wobei die Bearbeitung weniger als 8 Sekunden dauert. Es ist nicht notwendig, auf Cloud-Verarbeitung zurückzugreifen, und es eignet sich daher ideal für Szenarien ohne Internetverbindung.
Das Modell verwendet eine latente Diffusionsmodell (Latent Diffusion Model), das T5-Text-Einbettungen mit einer Transformer-basierten Diffusionsarchitektur (DiT) kombiniert. Mit einfachen englischen Text-Hinweisen (wie „128BPM elektronischer Drumloop“ oder „Geräusch des Wellenschlags“) können Geräusche, Drumbeats, Instrumentenabschnitte oder Umgebungsgeräusche generiert werden. Testergebnisse von AIbase zeigen, dass das Modell bei der Erstellung kurzer Audioschnitte detailliert ist und besonders für Sounddesign und Musikproduktion geeignet ist.
Open Source und Lizenz: Entwickler und Kreative unterstützen
Stable Audio Open Small folgt der Stability AI Community-Lizenz, die Forschern, Einzelpersonen und Unternehmen mit einem jährlichen Umsatz unter 1 Million Dollar kostenlos zugänglich ist. Die Modellgewichte und der Code sind bereits auf Hugging Face und GitHub veröffentlicht worden. Große Unternehmen benötigen eine Unternehmenslizenz, um die Nachhaltigkeit der Technologie in der kommerziellen Nutzung sicherzustellen. Diese lizenzbasierte Strategie senkt den technologischen Zugangsschwellenwert und fördert die globale Entwicklung von Anwendungen zur Audioerzeugung.
Zusätzlich stammen alle Trainingsdaten des Modells aus urheberrechtsfreien Audiodateien von Freesound und Free Music Archive, was die Rechtskonformität gewährleistet und Risiken vermeidet, wie sie bei Konkurrenten wie Suno und Udio durch Verwendung urheberrechtlich geschützter Inhalte entstanden sind.
Leistung und Innovation: ARC nach Training steigert die Effizienz
Stable Audio Open Small führt eine antagonistische relative Vergleichsmethode (ARC) ein, die nach dem Training stattfindet. Ohne traditionelle Verdampfung oder Klassifikatorleitung wird die Generierungsgeschwindigkeit und die Folge der Hinweise deutlich verbessert, indem relative antagonistische Verluste und vergleichende Diskriminator-Verluste kombiniert werden. Studien zeigen, dass das Modell 75 Millisekunden benötigt, um 12 Sekunden Audio auf einem H100-GPU zu generieren, und etwa 7 Sekunden auf mobilen Geräten. Zudem erreicht es einen Wert von 0,41 im CLAP-Bedingungs-Vielfaltsscore, der die führende Position unter ähnlichen Modellen darstellt.
In subjektiven Tests erzielte das Modell hohe Bewertungen in Bezug auf Vielfalt (4,4), Qualität (4,2) und Hinweisfolgen (4,2), was seine hervorragende Leistung bei der Generierung von Soundeffekten und Rhythmusfragmenten zeigt. Seine Ping-Pong-Sampling-Technik optimiert zudem die Wenig-Schritt-Abfrage und berücksichtigt Geschwindigkeit und Qualität.
Branchenbedeutung: Bewegung der mobilen KI und kreativen Demokratisierung
Die Veröffentlichung von Stable Audio Open Small markiert die Transformation der KI-Audioerzeugungstechnologie in Richtung mobile Geräte und Edge Computing. Im Gegensatz zu Wettbewerbern, die auf Cloud-Verarbeitung angewiesen sind, bietet die Offline-Fähigkeit des Modells Komfort für mobile Szenarien (wie Echtzeit-Audioerzeugung) und deckt damit 99 % der Smartphone-Nutzer weltweit ab. Laut AIbase wird diese Technologieverbreitung die Audio-Kreativökologie neu gestalten und es gewöhnlichen Nutzern ermöglichen, an professioneller Soundgestaltung teilzunehmen.
Allerdings hat das Modell auch Grenzen: Es unterstützt nur englische Hinweise, hat eine schwache Darstellung westlicher Musikstile und kann keine realistischen Stimmen oder vollständige Lieder generieren. Stability AI gibt an, dass in Zukunft die Mehrsprachigkeit und die Vielfalt der Musikstile optimiert werden, um die globale Anwendbarkeit zu verbessern.
Projekt: https://huggingface.co/stabilityai/stable-audio-open-small