Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas MCP

Stability AI abre código-fonte do Stable Audio Open Small, celular se torna ferramenta de criação de áudio

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Jul 3, 2025

19.4k

A Stability AI, em parceria com a gigante de chips Arm, lançou oficialmente o Stable Audio Open Small, um modelo de geração de áudio a partir de texto otimizado para dispositivos móveis com 341 milhões de parâmetros. Esse modelo leve pode ser executado localmente em CPUs da Arm, gerando áudio estéreo de alta qualidade, marcando uma grande evolução na tecnologia de geração de áudio por IA para cálculo nas bordas e dispositivos móveis.

Recursos técnicos: leve e eficiente, geração local no dispositivo móvel

O Stable Audio Open Small é baseado no modelo Stable Audio Open lançado anteriormente pela Stability AI, e através de otimizações profundas, o número de parâmetros foi reduzido de 1,1B para 341M, significativamente reduzindo as necessidades de computação. Graças ao suporte da biblioteca KleidiAI da Arm, o modelo pode gerar áudio estéreo de 44,1kHz com duração máxima de 11 segundos em menos de 8 segundos em smartphones, sem precisar de processamento em nuvem, sendo adequado para cenários offline.

O modelo utiliza um modelo de difusão latente (Latent Diffusion Model), combinando embeddings de texto T5 e arquitetura de difusão baseada em transformadores (DiT), permitindo gerar sons, batidas, trechos de instrumentos ou sons ambientais com apenas dicas de texto em inglês simples (como "loop de bateria eletrônica a 128 BPM" ou "o som das ondas batendo na praia"). Testes do AIbase mostram que o modelo gera fragmentos de áudio curtos com ricos detalhes, especialmente adequados para design de sons e produção musical.

Open Source e licença: impulsionando desenvolvedores e criadores

O Stable Audio Open Small segue a licença da comunidade da Stability AI, sendo gratuito para pesquisadores, usuários individuais e empresas com receita anual inferior a 1 milhão de dólares, com pesos do modelo e código publicados no Hugging Face e GitHub. Empresas grandes precisam comprar uma licença corporativa para garantir a sustentabilidade da tecnologia no uso comercial. Essa estratégia de licenciamento em níveis reduz a barreira tecnológica, incentivando desenvolvedores globais a explorar aplicações de geração de áudio.

Além disso, os dados de treinamento do modelo são todos provenientes de áudios sem direitos autorais do Freesound e Free Music Archive, garantindo conformidade com direitos autorais e evitando riscos como os enfrentados por concorrentes como Suno e Udio, que utilizam conteúdo protegido por direitos autorais.

Desempenho e inovação: melhoria da eficiência com pós-treinamento ARC

O Stable Audio Open Small introduziu um método de pós-treinamento chamado Contra-Relativo Comparativo (ARC), que não requer destilação tradicional ou orientação sem classificador, combinando perdas contra-ativas relativas e perdas de discriminador comparativo, melhorando significativamente a velocidade de geração e a aderência às dicas. Estudos mostram que o modelo gera áudio de 12 segundos em apenas 75 ms em GPU H100 e em aproximadamente 7 segundos em dispositivos móveis, alcançando uma pontuação de diversidade de condições CLAP de 0,41, liderando entre modelos similares.

Em testes subjetivos, o modelo obteve altas notas em diversidade (4,4), qualidade (4,2) e aderência às dicas (4,2), demonstrando seu excelente desempenho na geração de sons e fragmentos de ritmo. Sua tecnologia de muestreo Ping-Pong otimizou ainda mais a inferência com poucos passos, equilibrando velocidade e qualidade.

Impacto na indústria: impulsionando IA móvel e democracia criativa

O lançamento do Stable Audio Open Small marca a transição da tecnologia de geração de áudio por IA para dispositivos móveis e cálculo nas bordas. Diferente de competidores que dependem de processamento em nuvem, a capacidade de operação offline do modelo oferece conveniência para cenários móveis (como geração de efeitos sonoros em tempo real), atingindo 99% dos usuários de smartphones em todo o mundo. O AIbase acredita que essa tecnologia democratizará a criação de áudio, permitindo que usuários comuns participem do design de efeitos profissionais.

No entanto, o modelo também possui limitações: só suporta dicas em inglês, tem desempenho fraco em estilos musicais não ocidentais e não consegue gerar vozes realistas ou músicas completas. A Stability AI afirma que planeja otimizar o suporte multilíngue e a diversidade de estilos musicais para aumentar sua aplicabilidade global.

Projeto: https://huggingface.co/stabilityai/stable-audio-open-small

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily