階躍星辰開源語音推理模型Step-Audio-R1.1在權威評測中奪冠,以96.4%準確率超越多個主流閉源模型,刷新歷史紀錄。
StepFun AI團隊推出音頻大模型Step-Audio-R1,通過優化計算資源利用,解決了音頻AI模型在長推理鏈中準確性下降的問題。研究團隊指出,問題源於訓練時過度依賴文本數據,導致模型推理類似閱讀文字而非實際聆聽聲音。
國內AI公司階躍星辰發佈Step-Audio-EditX模型,實現用自然語言指令編輯語音。用戶只需輸入文字要求,即可精準調整音色、情緒、節奏等,讓語音編輯如修改文檔般直觀高效。30億參數確保性能強大。
StepFun AI發佈開源項目Step-Audio-EditX,基於30億參數音頻語言模型,將語音編輯轉化爲類似文本標記的可控操作,突破傳統波形處理模式。該技術有望實現"像編輯文本一樣編輯語音"的直觀交互,相關論文已發佈於arXiv平臺(編號2511.03601)。
Step-Audio是一個開源智能語音交互框架,支持多語言對話、情感語調和語音克隆等功能。
stepfun-ai
Step-Audio 2 是一款端到端的多模態大語言模型,專為滿足行業級音頻理解和語音對話需求而設計。具備先進的語音和音頻理解能力、智能語音對話功能、工具調用和多模態檢索增強生成能力,在多個音頻理解和對話基準測試中取得了領先的性能。