Distil-Whisper : un modèle de reconnaissance vocale plus léger

Des chercheurs de Hugging Face ont récemment résolu le problème du déploiement de grands modèles de reconnaissance vocale pré-entraînés dans des environnements aux ressources limitées. En créant un vaste ensemble de données open source et en utilisant une méthode d'étiquetage pseudo, ils ont distillé une version plus petite du modèle Whisper, appelée Distil-Whisper.

Ce modèle conserve la robustesse du modèle original dans des conditions acoustiques difficiles, tout en corrigeant les erreurs d'illusion dans les longues séquences audio. L'étude introduit une méthode d'étiquetage pseudo à grande échelle, offrant une nouvelle approche de la distillation des connaissances des données vocales et résolvant ainsi les problèmes de déploiement du modèle.

Whisper, en tant que grand modèle ASR pré-entraîné, excelle sur divers ensembles de données, tandis que Distil-Whisper atteint un taux d'erreur de mots (WER) inférieur à 1 % dans des scénarios zéro-shot, apportant une nouvelle solution aux problèmes de déploiement des modèles de reconnaissance vocale.