SenseVoice es un modelo de voz básico que incluye capacidades de comprensión de voz multilingüe, como el reconocimiento automático del habla (ASR), la identificación del idioma del habla (LID), el reconocimiento de emociones del habla (SER) y la detección de eventos de audio (AED). Se centra en el reconocimiento de voz multilingüe de alta precisión, la identificación de emociones del habla y la detección de eventos de audio, con soporte para más de 50 idiomas y un rendimiento que supera al modelo Whisper. El modelo utiliza un marco de extremo a extremo no autorregresivo, con una latencia de inferencia extremadamente baja, lo que lo convierte en la opción ideal para el procesamiento de voz en tiempo real.