Stability AI與Arm推出手機級音頻生成AI:7秒內創建11秒立體聲
Stability AI和Arm聯合發佈了一款名爲"穩定音頻開放小型"(Stable Audio Open Small)的緊湊型文本轉音頻模型,該模型能夠在約7秒內生成長達11秒的高質量立體聲音頻片段,且經過優化可在智能手機等移動設備上運行。這一突破基於加州大學伯克利分校研究人員開發的"對抗相對對比"(Adversarial Relativistic-Contrastive,ARC)技術。該模型在高端硬件如Nvidia H100GPU上的表現更爲驚人,能夠在僅75毫秒內完成44kHz立體聲音頻的生成,實現了近乎實時的音頻合成能力。與去年發佈的包含11億參數的原始Stable Audio