Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型
Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。主要亮点:处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上,使用Nexa SDK并采用FP16GGUF格式时,模型可实现每秒35.23个令牌的处理速度,而在Q4_K_M GGUF格式下,