Récemment, Stability AI a uni ses forces avec Arm, un géant des puces, pour ouvrir au public un modèle léger de conversion de texte en audio nommé Stable Audio Open Small. Ce modèle, qui ne comporte que 341 millions de paramètres, a été optimisé pour les processeurs Arm et peut fonctionner localement sur des appareils mobiles tels que les smartphones, générant des échantillons audio de haute qualité en moins de 8 secondes. AIbase analyse en profondeur cette percée technologique et explore son impact profond sur la création audio et l'écosystème d'IA mobile.

1.jpg

Adresse du modèle : https://huggingface.co/stabilityai/stable-audio-open-small

Points forts techniques : modèle ultra léger, exécution locale sur le téléphone

Stable Audio Open Small se distingue par sa conception compacte de 341 millions de paramètres, devenant ainsi l'un des modèles de conversion texte-en-son les plus légers et efficaces actuellement disponibles sur le marché. En s'associant étroitement avec Arm, ce modèle, optimisé à l'aide de la bibliothèque KleidiAI, peut générer en moins de 8 secondes un échantillon audio de 11 secondes sur les processeurs Arm d'un smartphone. Comparé à sa version précédente, Stable Audio Open (1,1 milliard de paramètres), ce nouveau modèle maintient une haute qualité audio tout en réduisant considérablement les besoins en calcul.

AIbase a appris que ce modèle utilise la technique de post-entraînement adversaire (ARC) pour abandonner les méthodes traditionnelles de distillation ou de génération conditionnelle, ce qui accélère encore plus la vitesse d'inférence. Sur une NVIDIA H100 GPU, le temps de génération est même réduit à 75 millisecondes, montrant ainsi son potentiel sur les appareils performants. Que ce soit pour le design sonore ou la création de fragments musicaux, Stable Audio Open Small permet aux utilisateurs une expérience fluide et localisée.

Spécialisé dans la création sonore : un outil professionnel pour la génération de courts extraits audio

Stable Audio Open Small a été conçu pour générer des extraits audio courts (jusqu'à 11 secondes) et convient particulièrement aux scénarios comme les effets sonores, les rythmes de batterie, les extraits d'instruments et les sons d'environnement. L'utilisateur n'a qu'à saisir une simple suggestion textuelle en anglais, comme "le bruit des vagues qui frappent la côte" ou "boucle électronique de batterie à 128 BPM", pour générer rapidement un fichier audio stéréo de 44,1 kHz. AIbase a constaté que le modèle se débrouille bien lors de la génération d'effets sonores et de fragments rythmiques, avec des détails audio riches, idéal pour les concepteurs de sons, les producteurs de musique et les créateurs de contenu.

Cependant, ce modèle présente certaines limites. Selon la documentation officielle de Stability AI, il ne supporte actuellement que des suggestions en anglais et ne peut pas générer des chansons vocales réalistes ou des chansons complètes de haute qualité. De plus, en raison des données d'entraînement principalement basées sur la musique occidentale, le modèle peut présenter des performances médiocres lorsqu'il traite des styles musicaux non occidentaux. AIbase conseille aux utilisateurs de personnaliser leurs suggestions en fonction de leurs besoins pour obtenir les meilleurs résultats.

Open source et éthique : respect des droits des créateurs

L'ensemble des données d'entraînement de Stable Audio Open Small provient de Free Music Archive et Freesound, garantissant ainsi la conformité en matière de droits d'auteur. AIbase estime que cette démarche répond aux controverses persistantes dans l'industrie concernant les droits d'auteur des données d'entraînement des IA et établit un exemple moral pour d'autres entreprises. Stability AI indique que les données d'entraînement ont été soigneusement sélectionnées pour exclure tout contenu protégé par des droits d'auteur sans autorisation.

En tant que projet open source, les poids du modèle sont désormais publiés sur Hugging Face et GitHub pour être téléchargés gratuitement par les développeurs. Le modèle est soumis sous la licence communautaire de Stability AI : les utilisateurs individuels, les chercheurs et les entreprises ayant un revenu annuel inférieur à 1 million de dollars peuvent l'utiliser gratuitement, tandis que les grandes entreprises doivent demander une licence d'entreprise. Cette stratégie flexible de licence réduit encore davantage les barrières technologiques et aide les développeurs du monde entier à explorer les applications de la génération audio.

Signification industrielle : un nouveau chapitre pour l'intelligence artificielle mobile et la démocratisation de la création

La publication de Stable Audio Open Small marque une avancée majeure de la technologie de génération audio IA vers le calcul périphérique et les appareils mobiles. Contrairement aux concurrents comme Suno ou Udio, qui dépendent du traitement cloud, la capacité d'exécution hors ligne de ce modèle permet aux utilisateurs de créer des audios sans connexion Internet, ce qui est particulièrement utile dans les scénarios mobiles où les besoins sont immédiats. AIbase prédit que ce modèle stimulera la mise à niveau intelligente des appareils de consommation tels que les smartphones et les tablettes, offrant de nouvelles opportunités pour la création de contenu pour des animateurs virtuels, des effets sonores de jeux et du contenu éducatif.

De plus, la collaboration entre Stability AI et Arm fournit un exemple pour le développement de l'intelligence artificielle sur les terminaux. AIbase analyse que l'optimisation du modèle pour s'adapter à du matériel à faible consommation d'énergie réduit non seulement les coûts de création, mais ouvre également la porte de la génération audio IA à 99 % des utilisateurs de smartphones dans le monde. Cette tendance de démocratisation pourrait redessiner l'écosystème de la création audio, permettant à davantage d'utilisateurs ordinaires de participer à la conception sonore professionnelle.

Besoins pressants pour l'accélération de l'intelligence artificielle nationale

En tant que média de référence dans le domaine de l'intelligence artificielle, AIbase accorde une haute reconnaissance à la publication de Stable Audio Open Small. Son design ultra léger, sa capacité d'exécution hors ligne et ses attributs open source reflètent les solides acquis de Stability AI dans le domaine de la génération audio. Cependant, cela rappelle également aux entreprises chinoises de renforcer leurs investissements dans l'IA sur les terminaux et dans l'écosystème open source afin de faire face à la compétition mondiale.