人工知能領域の急速な発展の中で、国産の大規模モデルの進化速度には驚かされます。今年の初めには、DeepSeek-R1が低コストでOpenAIを上回る性能を示し、海外の大規模モデルによる市場の独占的な地位を見直させるきっかけとなりました。そして今、MiniMaxは新たな驚きをもたらしました。「Speech-02」と名付けられた最新世代のテキストから音声へ変換する(TTS)モデルが、国際的に権威のある音声評価リスト「Artificial Analysis」でトップにランクインしたのです。この結果、OpenAIやElevenLabsといった業界大手を抑えて勝利を収めました。

image.png

Speech-02の優れたパフォーマンスは、字誤り率(WER)や話者類似度(SIM)など複数の重要な指標において新しい最高水準(SOTA)を達成しており、海外ユーザーたちを驚かせています。彼らはMiniMaxを音声分野における破壊的な革新者と称賛しています。さらに驚くべきことに、Speech-02のコストはElevenLabsの競合製品の約4分の1に抑えられており、その高いコストパフォーマンスが示されています。

では、なぜSpeech-02はこのような素晴らしい成果を達成できたのでしょうか?その背景には2つの重要な技術革新があります。まず一つ目は、Speech-02が実際のゼロサンプル(zero-shot)音声クローン技術を実現していることです。つまり、参考となる音声データを入力するだけで、追加のテキストは不要で、モデルが迅速にターゲット音声に非常に近い音声を生成できるというものです。この技術により、従来の合成方法に比べて大幅な時間とリソースの節約が可能になりました。

image.png

もう一つは、MiniMaxが新しいFlow-VAEアーキテクチャを採用していることです。このアーキテクチャは音声生成プロセスでの情報表現能力を向上させ、合成音声の品質や類似度を改善しました。学習可能なspeakerエンコーダーを導入することで、Speech-02は話者が独特に持つ発音特性に焦点を当て、音色、トーン、リズムなどを正確に再現します。これにより、従来の合成音声に見られる機械的な感じを解消しました。

image.png

さらに、MiniMaxはT2Vフレームワークを導入し、オープンな自然言語記述と構造化されたラベル情報を組み合わせることで、音声合成の柔軟性と制御性を向上させています。これにより、ユーザーは参考音声だけでなく、簡潔な説明を提供することで必要な音声特性を生成できるようになり、システムの多機能性が大幅に強化されました。

Speech-02の成功は、国産大規模モデルの音声合成分野における強大な力を再び証明し、中国の人工知能技術の急速な台頭を世界に示しました。

技術文書はこちら: https://minimax-ai.github.io/tts_tech_report/