StepFun AIチームは音声大規模モデル「Step-Audio-R1」をリリースしました。計算リソースの利用効率を最適化することで、長時間の推論連鎖において精度が低下する問題を解決しました。研究チームは、問題の原因がトレーニング時にテキストデータに過度に依存していたため、モデルの推論が文字を読むことではなく実際に音を聞くこととは異なるものになっていたと指摘しています。