Stability AIとArmは、「スタビライズドオーディオオープンスモール」(Stable Audio Open Small)と呼ばれるコンパクトなテキストtoオーディオモデルを共同で発表しました。このモデルは約7秒以内で11秒間の高品質なステレオ音声を生成し、スマートフォンなどのモバイルデバイス上で効率的に動作するように最適化されています。

この技術革新は、カリフォルニア大学バークレー校の研究者たちが開発した「敵対的相対的コントラスト」(Adversarial Relativistic-Contrastive, ARC)技術に基づいています。高性能ハードウェア(例:Nvidia H100 GPU)では驚異的な性能を発揮し、わずか75ミリ秒で44kHzのステレオ音声を生成し、ほぼリアルタイムでのオーディオ合成を可能にします。

AI音楽 人工知能 (3)

昨年発表された元の「スタビライズドオーディオオープン」(11億のパラメーターを含む)と比べると、この簡略化バージョンはわずか3.41億のパラメーターを使用し、計算資源の必要性を大幅に削減しました。これにより、消費者向けのハードウェア上でスムーズに動作するようになりました。これは、今年3月にStability AIとArmが協力することを発表して以来の最初の重要な成果です。

スマホ端での実行を実現するために、開発チームはモデルアーキテクチャを徹底的に改良し、システムを次の3つの主要なコンポーネントに再構築しました:オーディオデータを圧縮するオートエンコーダー、テキストプロンプトを解釈する埋め込みモジュール、最終的なオーディオを生成する拡散モデル。

Stability AIによれば、このモデルは効果音やフィールドレコーディングの生成において特に優れていますが、音楽生成にはまだ制限があります。特に歌声の処理ではその制約があり、現在は主に英語のプロンプトに対応しています。

モデルのトレーニングには、Freesoundデータベース内の約47万2千個のCC0、CC-BY、またはCC-Sampling+ライセンスの音声クリップを使用し、開発チームは自動化されたチェックを行い、著作権問題を回避するためのデータ選別を行いました。