Nexa AI 發佈 OmniAudio-2.6B:用於邊緣部署的快速音頻語言模型
Nexa AI近日推出了其全新的OmniAudio-2.6B音頻語言模型,旨在滿足邊緣設備的高效部署需求。與傳統的將自動語音識別(ASR)和語言模型分開的架構不同,OmniAudio-2.6B將Gemma-2-2b、Whisper Turbo以及定製的投影儀集成到一個統一框架中,這一設計消除了傳統系統中各個組件鏈接所帶來的低效率和延遲,特別適用於計算資源有限的設備。主要亮點:處理速度: OmniAudio-2.6B在性能上表現出色。在2024Mac Mini M4Pro上,使用Nexa SDK並採用FP16GGUF格式時,模型可實現每秒35.23個令牌的處理速度,而在Q4_K_M GGUF格式下,