媲美GPT-4o!复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐
大型语言模型(LLM)在推动自然语言处理任务中发挥关键作用,然而跨模态内容生成仍面临挑战。复旦大学团队提出SpeechGPT,旨在让模型理解并生成语音与文本内容。SpeechGPT通过将语音信号离散化,使其与文本模态兼容,从而具备感知和生成语音的能力。该模型能感知和表达情感,根据上下文和指令生成多种风格的语音,得益于其庞大的语音数据集。训练策略包括模态适应预训练、跨模态指令微调和模态链指令微调,以优化跨模态转换能力。SpeechGPT展示了在文本、跨模态和口语对话任务上的强大能力,但在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有改进空间。团队计划开源相关资源,促进技术发展。