國內AI公司階躍星辰發佈Step-Audio-EditX模型,實現用自然語言指令編輯語音。用戶只需輸入文字要求,即可精準調整音色、情緒、節奏等,讓語音編輯如修改文檔般直觀高效。30億參數確保性能強大。
StepFun AI發佈開源項目Step-Audio-EditX,基於30億參數音頻語言模型,將語音編輯轉化爲類似文本標記的可控操作,突破傳統波形處理模式。該技術有望實現"像編輯文本一樣編輯語音"的直觀交互,相關論文已發佈於arXiv平臺(編號2511.03601)。
StepFun AI發佈開源音頻編輯模型Step-Audio-EditX,該3B參數模型將音頻編輯轉化爲類似文本編輯的令牌操作,實現直接可控的語音編輯。它解決了當前零樣本文本轉語音系統在情感、風格等控制上的侷限,使表達性語音編輯更簡單精確。