超高速音声生成モデルTangoFlux:わずか3秒で30秒の音声を生成
人工知能分野において、テキスト音声生成技術は研究のホットトピックになりつつあります。最近、研究者らはTANGOFLUXという新しいモデルを発表しました。このモデルは性能と効率性の両面で優れた成果を示しています。TANGOFLUXは、5億1500万パラメーターを持つ高効率なテキスト音声生成モデルであり、最長30秒の44.1kHz音声データの生成にわずか3.7秒しかかかりません。この速度は、単一のA40 GPU上での動作において非常に優れたものです。TANGOFLUXは主に…