最近、マイクロソフトは注目を集めるオープンソースのテキストから音声への変換(TTS)モデル「VibeVoice」をリリースし、AI音声技術分野で大きな注目を集めています。このモデルは強力な機能と優れた性能により、長編音声生成、複数人会話および中国語音声合成の新たな基準を設定しました。以下では、AIbaseがVibeVoiceの特徴と潜在力を詳しく解説します。

 90分以上の超長時間音声生成に対応、時間制限を突破

VibeVoiceモデルは音声生成の長さにおいて重要な進展を遂げ、一度に最大90分間の連続した音声を生成することが可能です。この特性は、ポッドキャスト、オーディオブック、教育コンテンツ制作などの長時間の音声出力が必要なシナリオに特に適しています。従来のTTSモデルの時間制限に比べて、VibeVoiceの超長時間生成能力はコンテンツクリエイターにより大きな柔軟性と創造空間を提供します。

image.png

 複数人会話の新境地、最大4人までの音声対応

これまでのTTSモデルが単一または二人の会話に限定されていたのに対し、VibeVoiceは最大4人の対話音声をスムーズに生成できます。この機能は、複数人によるポッドキャスト、ミーティング録音や仮想キャラクターとのインタラクションなど、さまざまなシナリオで優れたパフォーマンスを発揮します。音声の一貫性と自然な輪番に対する最適化により、VibeVoiceが生成する複数人対話の音声は自然で滑らかで、ほぼ本物の録音に匹敵します。

 中国語音声の質が優れ、ローカルアプリケーションの支援

中国市場において、VibeVoiceは印象的な表現を見せています。中国語音声合成をサポートしており、トーン、発音の正確性および自然さにおいて高いレベルに達しています。これにより、VibeVoiceは中国語のポッドキャスト、教育トレーニング、スマートカスタマーサービスなどの分野で広範な応用可能性を持ち、開発者に高品質なローカル化された音声ソリューションを提供します。

 バックグラウンドミュージックをサポート、没入型のポッドキャスト体験を構築

VibeVoiceのもう一つの魅力は、バックグラウンドミュージック付きのポッドキャスト音声を生成できる点です。この機能により、コンテンツクリエイターは簡単に音声にバックグラウンドサウンドを追加でき、より没入感があり、プロフェッショナルな音声コンテンツを作成できます。軽快なバックグラウンドメロディーから緊張感のある雰囲気の音効果まで、VibeVoiceはスムーズに統合し、聴衆に豊かな聴覚体験をもたらします。

 オープンソースにより開発者を支える、将来の応用可能性が広がる

オープンソースモデルとして、VibeVoiceは2025年8月26日にGitHubで正式リリースされ、開発者は自由に取得し、二次開発を行うことができます。マイクロソフトがこのオープンソースの取り組みを通じて、高品質なTTS技術の利用ハードルを下げ、グローバルなAI開発者コミュニティに新しい活力を注入しました。個人クリエイターであっても、企業ユーザーであっても、VibeVoiceを通じて迅速に革新的な音声アプリケーションを構築することができます。

アドレス:https://huggingface.co/microsoft/VibeVoice-1.5B