阿里巴巴發佈新語音模型 Qwen2-Audio,實力超越 OpenAI Whisper
阿里巴巴近期發佈了全新開源語音模型Qwen2-Audio,這款模型在語音識別、翻譯和音頻分析方面表現出色,實現了顯著性能提升。Qwen2-Audio提供基礎版和指令微調版,支持多種語言,如中文、粵語、法語、英語和日語,爲情感分析和翻譯應用提供了便利。相較於Qwen-Audio,Qwen2-Audio在架構和性能上進行了全面優化,預訓練階段採用更自然的語言提示,提升理解和泛化能力。指令跟隨能力增強,能更準確理解用戶指令。模型引入語音聊天和音頻分析模式,輸出符合人類期望。在性能測試中,Qwen2-Audio超越OpenAI的Whisper-large-v3,在語音識別和翻譯準確性上表現出強勁競爭力。