Stability AI und Arm haben eine kompakte Text-zu-Audio-Modell namens „Stabile Audio Open Small“ veröffentlicht, das innerhalb von etwa 7 Sekunden bis zu 11 Sekunden hohe Qualität in Stereo generieren kann und speziell für mobile Geräte wie Smartphones optimiert ist.
Dieser Durchbruch basiert auf der von Forschern an der University of California, Berkeley entwickelten „Gegnerschen Relativistischen Kontrast“-Technologie (Adversarial Relativistic-Contrastive, ARC). Das Modell zeigt auf hochwertiger Hardware wie dem Nvidia H100 GPU noch erstaunlichere Fähigkeiten, indem es innerhalb von nur 75 Millisekunden 44 kHz Stereo-Audio generiert und nahezu in Echtzeit Audio-Synthese ermöglicht.
Im Vergleich zum im vergangenen Jahr veröffentlichten Original-Stable Audio Open mit 1,1 Milliarden Parametern verwendet diese reduzierte Version nur 341 Millionen Parameter, was den Bedarf an Rechenressourcen erheblich verringert hat und es ermöglicht, dass das Modell auf Verbraucherhardware flüssig läuft. Dies ist das erste bedeutende Ergebnis seit der Ankündigung der Zusammenarbeit zwischen Stability AI und Arm im März dieses Jahres.
Zur Optimierung für die Nutzung auf Smartphones wurde die Architektur des Modells gründlich überarbeitet und in drei Kernkomponenten unterteilt: einen Automaten zur Komprimierung von Audiodaten, einen Einbettungsmodul zur Interpretation von Textprompten und einen Diffusionsmodell zur Generierung der endgültigen Audiodatei.
Stability AI berichtet, dass das Modell besonders gut bei der Erstellung von Soundeffekten und Liveaufnahmen funktioniert, jedoch noch Einschränkungen bei der Musikgenerierung aufweist, insbesondere bei der Verarbeitung von Gesängen. Derzeit ist es hauptsächlich für englische Prompt-Eingaben optimiert.
Die Modelltrainingsdaten wurden aus der Freesound-Datenbank mit etwa 472.000 Audiodateien erstellt, die unter CC0-, CC-BY- oder CC-Sampling+-Lizenz verfügbar sind. Die Entwicklungsteam hat eine Reihe automatisierter Überprüfungen durchgeführt, um potenzielle Urheberrechtsprobleme zu vermeiden.