復旦大學MOSS團隊發佈MOSS-Speech,首次實現端到端語音對話,模型已在Hugging Face上線並開源。採用“層拆分”架構,凍結原文本模型,新增語音理解、語義對齊和聲碼器層,可一次性完成語音問答、情緒模仿和笑聲生成,無需傳統三段式流程。評測顯示,在ZeroSpeech2025任務中詞錯率降至4.1%,情感識別準確率達91.2%。