腾讯 AI Lab は正式に、音楽生成の大規模モデルである「SongGeneration」を公開し、これをオープンソース化しました。このモデルは、音質、音楽性、および生成速度という音楽生成分野で一般的に存在する3つの課題を解決することを目指しています。SongGeneration は、大型モデルに基づく融合アーキテクチャを採用しており、音質表現を大幅に向上させるとともに、商業的な閉鎖型モデルと比較して高速な生成速度を実現し、一部の領域ではその性能すら上回っています。

SongGeneration は、音質や生成速度での進化だけでなく、テキスト制御、マルチトラック合成、スタイルフォローディレクションといった複数の機能も搭載されており、ユーザーのクリエイティブな体験を大きく強化しています。ユーザーはキーワードを入力するだけで、特定のスタイルや感情に基づいた完成された音楽作品を生成できます。さらに、ユーザーは参照となるオーディオファイルをアップロードすると、SongGeneration はそのスタイルに一致した新しい楽曲を生成します。これにはポップ、ロックなど、さまざまなジャンルが含まれます。

image.png

技術的には、SongGeneration は音声分離、構造解析、歌詞認識などのモジュールを含む完全なデータパイプラインを構築しており、効率的にオーディオデータを処理することができます。そのトレーニングモデルのパラメータ総量は約3Bであり、膨大な中英語の楽曲で事前学習され、その強力な生成能力を保証しています。

SongGeneration の公開は、音楽生成技術の進展を象徴すると同時に、「誰もが創作できる」音楽の未来ビジョンにも応答しています。コンテンツクリエイター、ゲーム開発者、そしてミュージシャンにとって強力なツールを提供し、オープンで柔軟な音楽AIエコシステムを構築することで、より多くの人々が音楽制作に簡単に参加できる環境を整えています。

SongGeneration モデルの体験はこちら: https://huggingface.co/spaces/tencent/SongGeneration 

要点整理:  

🎵 SongGeneration は、腾讯 AI Lab が公開したオープンソースの音楽生成大規模モデルで、音質、音楽性、生成速度の向上に焦点を当てています。  

🎤 ユーザーはキーワードを入力したり、オーディオファイルをアップロードするだけで、スタイルに一致した新しい音楽を簡単に生成でき、直感的で高度にコントロール可能な制作プロセスを体験できます。  

🎶 このモデルは、3Bパラメータの大規模なアーキテクチャに基づき、大量の中英語楽曲で事前学習されており、音楽制作の知能化を推進しています。