ステップスターのオープンソース音声推論モデルであるStep-Audio-R1.1が権威ある評価で優勝し、96.4%の正確率で複数の主要な非公開モデルを上回り、歴史的な記録を更新しました。
StepFun AIチームは音声大規模モデル「Step-Audio-R1」をリリースしました。計算リソースの利用効率を最適化することで、長時間の推論連鎖において精度が低下する問題を解決しました。研究チームは、問題の原因がトレーニング時にテキストデータに過度に依存していたため、モデルの推論が文字を読むことではなく実際に音を聞くこととは異なるものになっていたと指摘しています。
階躍星辰がStep-Audio-EditXを発表。自然言語で音声編集が可能に。文字入力で音色・感情・リズムを精密調整。30億パラメータで高性能を実現。....
StepFun AIがオープンソース「Step-Audio-EditX」を公開。30億パラメータ音声言語モデルにより、音声編集をテキストトークンのように制御可能に。従来の波形処理を超え、arXivに論文公開(2511.03601)。....
Step-Audioは、多言語対応、感情表現、音声クローンなどの機能を備えたオープンソースのインテリジェント音声対話フレームワークです。
stepfun-ai
Step-Audio 2は、業界レベルの音声理解と音声対話のニーズを満たすために設計されたエンドツーエンドのマルチモーダル大規模言語モデルです。高度な音声と音声理解能力、スマート音声対話機能、ツール呼び出しおよびマルチモーダル検索強化生成能力を備え、複数の音声理解と対話のベンチマークテストでトップクラスの性能を発揮しています。