StepFun AI團隊推出音頻大模型Step-Audio-R1,通過優化計算資源利用,解決了音頻AI模型在長推理鏈中準確性下降的問題。研究團隊指出,問題源於訓練時過度依賴文本數據,導致模型推理類似閱讀文字而非實際聆聽聲音。