ステップスターのオープンソース音声推論モデルであるStep-Audio-R1.1が権威ある評価で優勝し、96.4%の正確率で複数の主要な非公開モデルを上回り、歴史的な記録を更新しました。
StepFun AIチームは音声大規模モデル「Step-Audio-R1」をリリースしました。計算リソースの利用効率を最適化することで、長時間の推論連鎖において精度が低下する問題を解決しました。研究チームは、問題の原因がトレーニング時にテキストデータに過度に依存していたため、モデルの推論が文字を読むことではなく実際に音を聞くこととは異なるものになっていたと指摘しています。