aiOla推超高速開源語音識別模型Whisper-Medusa,比OpenAI的Whisper快50%
以色列AI初創公司aiOla發佈了一款名爲Whisper-Medusa的開源語音識別模型,比OpenAI的Whisper快50%。該模型基於Whisper構建,採用了創新的“多頭注意力”架構,能一次預測更多代幣,速度提升顯著而準確性不變。Whisper-Medusa已在Hugging Face上以麻省理工學院許可發佈,允許研究和商業使用。aiOla通過弱監督機器學習方法訓練模型,凍結了Whisper的主要組件,並使用模型生成的音頻轉錄作爲標籤來訓練額外的token預測模塊。該模型在真實企業數據用例上測試過,能在實際場景準確運行,有望在語音應用中加快響應速度,提升效率和降低成本。