媲美GPT-4o!復旦推語音模型SpeechGPT2 能聽懂你的喜怒哀樂
大型語言模型(LLM)在推動自然語言處理任務中發揮關鍵作用,然而跨模態內容生成仍面臨挑戰。復旦大學團隊提出SpeechGPT,旨在讓模型理解並生成語音與文本內容。SpeechGPT通過將語音信號離散化,使其與文本模態兼容,從而具備感知和生成語音的能力。該模型能感知和表達情感,根據上下文和指令生成多種風格的語音,得益於其龐大的語音數據集。訓練策略包括模態適應預訓練、跨模態指令微調和模態鏈指令微調,以優化跨模態轉換能力。SpeechGPT展示了在文本、跨模態和口語對話任務上的強大能力,但在語音理解的噪聲魯棒性和語音生成的音質穩定性方面仍有改進空間。團隊計劃開源相關資源,促進技術發展。