Stability AI se une a los gigantes de la industria de chips, Arm, para lanzar oficialmente el modelo de generación de audio desde texto Stable Audio Open Small, un modelo optimizado para dispositivos móviles con 341 millones de parámetros. Este modelo ligero puede ejecutarse localmente en la CPU de Arm y generar audios estéreo de alta calidad, marcando un gran avance en la tecnología de generación de audio basada en IA hacia el cálculo periférico y los dispositivos móviles.

Características técnicas: Ligero y eficiente, generación local en dispositivos móviles

Stable Audio Open Small se basa en el modelo Stable Audio Open lanzado previamente por Stability AI, y mediante una optimización profunda, el número de parámetros se redujo de 1.1B a 341M, lo que representa una disminución significativa en la demanda computacional. Gracias al apoyo de la biblioteca KleidiAI de Arm, el modelo puede generar audios estéreo de 44.1kHz de hasta 11 segundos en menos de 8 segundos en teléfonos inteligentes, sin necesidad de procesamiento en la nube, lo que lo hace ideal para escenarios sin conexión.

El modelo utiliza un modelo de difusión latente (Latent Diffusion Model), combinado con incrustaciones de texto T5 y arquitectura de difusión basada en transformadores (DiT), permitiendo generar efectos sonoros, ritmos de batería, fragmentos de instrumentos o sonidos ambientales con simples indicaciones en inglés (como "ciclo de batería electrónica de 128 BPM" o "sonido de olas rompiendo en la orilla"). Las pruebas de AIbase muestran que el modelo genera fragmentos de audio cortos con ricos detalles, especialmente adecuados para diseño de efectos sonoros y producción musical.

image.png

Open Source y licencias: Empoderando a desarrolladores y creadores

Stable Audio Open Small sigue la licencia de la comunidad de Stability AI, siendo gratuita para investigadores, usuarios individuales y empresas con ingresos anuales inferiores a 1 millón de dólares, y los pesos del modelo y el código ya están disponibles en Hugging Face y GitHub. Las empresas grandes deben adquirir una licencia empresarial para garantizar la sostenibilidad de la tecnología en su comercialización. Esta estrategia de licencias escalonadas reduce las barreras tecnológicas y fomenta a desarrolladores globales a explorar aplicaciones de generación de audio.

Además, los datos utilizados para entrenar el modelo provienen completamente de audios libres de derechos de Freesound y Free Music Archive, asegurando la conformidad con los derechos de autor y evitando riesgos como los enfrentados por competidores como Suno y Udio debido al uso de contenido protegido por derechos.

Rendimiento e innovación: Mejora de eficiencia mediante post-entrenamiento ARC

Stable Audio Open Small introduce un método de post-entrenamiento contraste relativo adversarial (ARC), que no requiere distilación tradicional ni guía sin clasificador, combinando pérdidas adversariales relativas y pérdidas de discriminador de contraste, mejorando significativamente la velocidad de generación y la fidelidad al prompt. Los estudios muestran que el modelo genera 12 segundos de audio en 75 milisegundos en una GPU H100, y en dispositivos móviles en aproximadamente 7 segundos, alcanzando un puntaje de diversidad CLAP de 0.41, liderando a modelos similares.

En pruebas subjetivas, el modelo obtuvo altas calificaciones en diversidad (4.4), calidad (4.2) y fidelidad al prompt (4.2), demostrando su excelente rendimiento en la generación de efectos sonoros y fragmentos rítmicos. Su tecnología de muestreo Ping-Pong optimiza aún más el razonamiento con pocos pasos, equilibrando velocidad y calidad.

Significado industrial: Impulsando el AI móvil y la democratización creativa

El lanzamiento de Stable Audio Open Small marca la transición de la tecnología de generación de audio basada en IA hacia dispositivos móviles y cálculo periférico. A diferencia de sus competidores que dependen del procesamiento en la nube, la capacidad de funcionar sin conexión del modelo facilita escenarios móviles (como generación de efectos sonoros en tiempo real), cubriendo al 99% de los usuarios de teléfonos inteligentes en el mundo. Según el análisis de AIbase, esta tecnología impulsará la ecología de creación de audio, permitiendo que usuarios comunes participen en diseños profesionales de efectos sonoros.

No obstante, el modelo también tiene limitaciones: solo admite indicaciones en inglés, muestra una menor capacidad para representar estilos musicales no occidentales y no puede generar voces realistas o canciones completas. Stability AI afirma que optimizará el soporte multilingüe y la diversidad de estilos musicales en el futuro, para mejorar su aplicabilidad global.

Proyecto: https://huggingface.co/stabilityai/stable-audio-open-small