アリババの通義万相チームがWan 2.2-S2Vモデルを発表、動画と音声の同期生成を実現しAI動画制作効率を向上。Xプラットフォームで公開され、開発者向けAIツールとして提供。....
マイクロソフトがVibeVoice-1.5B音声モデルをオープンソース化。90分の長音声合成が可能に。最大4話者対応で、より自然な音声を実現。....
gguf-org
vibevoice-ggufは、Microsoft VibeVoice-1.5Bモデルに基づくテキストを音声に変換するシステムで、gguf-connectorを通じて動作し、テキストを自然な音声に変換でき、音声クローニングと複数話者の音声生成をサポートします。