aiOla推超高速开源语音识别模型Whisper-Medusa,比OpenAI的Whisper快50%
以色列AI初创公司aiOla发布了一款名为Whisper-Medusa的开源语音识别模型,比OpenAI的Whisper快50%。该模型基于Whisper构建,采用了创新的“多头注意力”架构,能一次预测更多代币,速度提升显著而准确性不变。Whisper-Medusa已在Hugging Face上以麻省理工学院许可发布,允许研究和商业使用。aiOla通过弱监督机器学习方法训练模型,冻结了Whisper的主要组件,并使用模型生成的音频转录作为标签来训练额外的token预测模块。该模型在真实企业数据用例上测试过,能在实际场景准确运行,有望在语音应用中加快响应速度,提升效率和降低成本。