以色列公司推出速度提升50%的開源語音識別模型Whisper Medusa
以色列AI公司aiOla發佈了一款名爲Whisper Medusa的開源語音識別模型,該模型基於改進的架構設計,引入多頭注意力機制,使其處理速度比OpenAI的Whisper模型快50%。Whisper Medusa通過並行預測十個tokens,而非傳統的一次一個,顯著提高了語音識別速度,同時保持了性能不減。其創新的訓練方法採用弱監督學習,凍結主幹系統並使用模型生成的音頻轉錄作爲標籤訓練其他模塊。這一開源模型的發佈,將爲語音識別技術的發展帶來深遠影響,推動更快速、高效的語音處理應用,並可能在智能助手、實時翻譯和語音控制系統等領域實現性能提升。