A Stability AI, em parceria com a gigante de chips Arm, lançou oficialmente o Stable Audio Open Small, um modelo de geração de áudio a partir de texto otimizado para dispositivos móveis com 341 milhões de parâmetros. Esse modelo leve pode ser executado localmente em CPUs da Arm, gerando áudio estéreo de alta qualidade, marcando uma grande evolução na tecnologia de geração de áudio por IA para cálculo nas bordas e dispositivos móveis.
Recursos técnicos: leve e eficiente, geração local no dispositivo móvel
O Stable Audio Open Small é baseado no modelo Stable Audio Open lançado anteriormente pela Stability AI, e através de otimizações profundas, o número de parâmetros foi reduzido de 1,1B para 341M, significativamente reduzindo as necessidades de computação. Graças ao suporte da biblioteca KleidiAI da Arm, o modelo pode gerar áudio estéreo de 44,1kHz com duração máxima de 11 segundos em menos de 8 segundos em smartphones, sem precisar de processamento em nuvem, sendo adequado para cenários offline.
O modelo utiliza um modelo de difusão latente (Latent Diffusion Model), combinando embeddings de texto T5 e arquitetura de difusão baseada em transformadores (DiT), permitindo gerar sons, batidas, trechos de instrumentos ou sons ambientais com apenas dicas de texto em inglês simples (como "loop de bateria eletrônica a 128 BPM" ou "o som das ondas batendo na praia"). Testes do AIbase mostram que o modelo gera fragmentos de áudio curtos com ricos detalhes, especialmente adequados para design de sons e produção musical.
Open Source e licença: impulsionando desenvolvedores e criadores
O Stable Audio Open Small segue a licença da comunidade da Stability AI, sendo gratuito para pesquisadores, usuários individuais e empresas com receita anual inferior a 1 milhão de dólares, com pesos do modelo e código publicados no Hugging Face e GitHub. Empresas grandes precisam comprar uma licença corporativa para garantir a sustentabilidade da tecnologia no uso comercial. Essa estratégia de licenciamento em níveis reduz a barreira tecnológica, incentivando desenvolvedores globais a explorar aplicações de geração de áudio.
Além disso, os dados de treinamento do modelo são todos provenientes de áudios sem direitos autorais do Freesound e Free Music Archive, garantindo conformidade com direitos autorais e evitando riscos como os enfrentados por concorrentes como Suno e Udio, que utilizam conteúdo protegido por direitos autorais.
Desempenho e inovação: melhoria da eficiência com pós-treinamento ARC
O Stable Audio Open Small introduziu um método de pós-treinamento chamado Contra-Relativo Comparativo (ARC), que não requer destilação tradicional ou orientação sem classificador, combinando perdas contra-ativas relativas e perdas de discriminador comparativo, melhorando significativamente a velocidade de geração e a aderência às dicas. Estudos mostram que o modelo gera áudio de 12 segundos em apenas 75 ms em GPU H100 e em aproximadamente 7 segundos em dispositivos móveis, alcançando uma pontuação de diversidade de condições CLAP de 0,41, liderando entre modelos similares.
Em testes subjetivos, o modelo obteve altas notas em diversidade (4,4), qualidade (4,2) e aderência às dicas (4,2), demonstrando seu excelente desempenho na geração de sons e fragmentos de ritmo. Sua tecnologia de muestreo Ping-Pong otimizou ainda mais a inferência com poucos passos, equilibrando velocidade e qualidade.
Impacto na indústria: impulsionando IA móvel e democracia criativa
O lançamento do Stable Audio Open Small marca a transição da tecnologia de geração de áudio por IA para dispositivos móveis e cálculo nas bordas. Diferente de competidores que dependem de processamento em nuvem, a capacidade de operação offline do modelo oferece conveniência para cenários móveis (como geração de efeitos sonoros em tempo real), atingindo 99% dos usuários de smartphones em todo o mundo. O AIbase acredita que essa tecnologia democratizará a criação de áudio, permitindo que usuários comuns participem do design de efeitos profissionais.
No entanto, o modelo também possui limitações: só suporta dicas em inglês, tem desempenho fraco em estilos musicais não ocidentais e não consegue gerar vozes realistas ou músicas completas. A Stability AI afirma que planeja otimizar o suporte multilíngue e a diversidade de estilos musicais para aumentar sua aplicabilidade global.
Projeto: https://huggingface.co/stabilityai/stable-audio-open-small