阿里巴巴发布新语音模型 Qwen2-Audio,实力超越 OpenAI Whisper
阿里巴巴近期发布了全新开源语音模型Qwen2-Audio,这款模型在语音识别、翻译和音频分析方面表现出色,实现了显著性能提升。Qwen2-Audio提供基础版和指令微调版,支持多种语言,如中文、粤语、法语、英语和日语,为情感分析和翻译应用提供了便利。相较于Qwen-Audio,Qwen2-Audio在架构和性能上进行了全面优化,预训练阶段采用更自然的语言提示,提升理解和泛化能力。指令跟随能力增强,能更准确理解用户指令。模型引入语音聊天和音频分析模式,输出符合人类期望。在性能测试中,Qwen2-Audio超越OpenAI的Whisper-large-v3,在语音识别和翻译准确性上表现出强劲竞争力。