Récemment, l'équipe de Stability AI a lancé un nouveau modèle de génération audio open source, nommé Stable Audio Open. Ce modèle se distingue par sa capacité à générer des fichiers audio stéréo d'une durée maximale de 47 secondes, avec un taux d'échantillonnage de 44,1 kHz, à partir d'une simple invite textuelle.
Accès au produit :https://top.aibase.com/tool/stable-audio-open-demo
Contrairement à de nombreux modèles de génération audio populaires actuels, les poids de Stable Audio Open sont ouverts, ce qui signifie que chacun peut consulter, modifier et étendre ce modèle. Ce concept favorise non seulement le progrès de la recherche scientifique, mais offre également de nouvelles possibilités aux développeurs. Plus important encore, ce modèle a été entraîné uniquement avec des fichiers audio sous licence Creative Commons, garantissant ainsi la légalité des données et évitant les problèmes de droits d'auteur potentiels, témoignant d'un profond respect pour l'éthique des données.
Sur le plan de l'architecture technique, Stable Audio Open utilise une architecture avancée qui garantit une haute fidélité de la génération de texte en audio. Il peut générer des fichiers audio stéréo de haute qualité, offrant ainsi aux utilisateurs une expérience sonore claire et réaliste. Au cours de son entraînement, le modèle a été exposé à une grande variété d'échantillons audio, ce qui lui a permis d'apprendre des paysages sonores plus riches, rendant les fichiers audio générés plus réalistes et diversifiés.
De plus, pour garantir que les performances du nouveau modèle soient comparables à celles des meilleurs modèles du secteur, l'équipe de développement a réalisé une évaluation complète des performances. Grâce à l'indicateur d'évaluation clé FDopenl3, les chercheurs ont constaté que le modèle présentait de bonnes performances en matière de génération d'audio de haute qualité, comparable à celle d'autres excellents modèles du secteur. Cette étude comparative confirme la supériorité et l'utilité de Stable Audio Open.
Le lancement de Stable Audio Open ne se concentre pas seulement sur l'ouverture et la synthèse audio de haute qualité, mais fournit également un outil important aux chercheurs, aux artistes et aux développeurs.
Points clés :
- 🎧 Stability AI a publié Stable Audio Open, un modèle open source capable de générer des fichiers audio stéréo de 44,1 kHz, de durée variable (jusqu'à 47 secondes).
- 📝 Ce modèle a été entraîné uniquement avec des données audio sous licence Creative Commons, garantissant la légalité et l'éthique des données.
- 🔍 Comparé aux meilleurs modèles du secteur, la qualité de génération audio de Stable Audio Open a été vérifiée et présente une haute fidélité et une grande diversité.