HuggingFace的研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。通过创建庞大的开源数据集,利用伪标记的方法,提炼出了Whisper模型的较小版本,即Distil-Whisper。该模型在挑战性的声学条件下保持了原模型的韧性,同时解决了长篇音频中的错觉错误。研究引入了大规模伪标记方法,提供了新的语音数据知识提炼途径,解决了模型部署问题。Whisper作为大型预训练ASR模型在各种数据集上表现出色,而Distil-Whisper在零样本场景下实现了不到1%的WER,为解决语音识别模型部署问题带来了新的解决方案。