アリタオヨウがチェーン・オブ・トレースをサポートする音声生成モデルThinkSoundをオープンソース化
最近、アリの音声AIチームは世界初のチェーン・オブ・トレースをサポートする音声生成モデルであるThinkSoundをオープンソース化しました。このモデルは思考チェーン(Chain-of-Thought)技術を導入し、従来の動画から音声への変換技術が持つ画像の動きを捉える制限を打ち破り、高品位で強力な同期の取れた空間音声生成を実現しています。この突破は、AI音声技術が「図鑑に音声をつける」から構造的な画像理解へと飛躍的に進化したことを示しています。