SenseVoiceSmall ist ein Sprachgrundmodell mit vielfältigen Sprachverständnisfähigkeiten, darunter automatische Spracherkennung (ASR), Spracherkennung (LID), Spracherkennung (SER) und Audioereigniserkennung (AED). Das Modell wurde mit über 400.000 Stunden Daten trainiert, unterstützt über 50 Sprachen und übertrifft die Leistung des Whisper-Modells. Das kleine Modell SenseVoice-Small verwendet ein nicht-autoregressives End-to-End-Framework, wodurch die Inferenzlatenz extrem niedrig ist. Die Verarbeitung von 10 Sekunden Audio dauert nur 70 Millisekunden, 15-mal schneller als Whisper-Large. Darüber hinaus bietet SenseVoice praktische Feineinstellungs-Skripte und -Strategien sowie eine Servicebereitstellungspipeline für mehrere gleichzeitige Anfragen. Zu den Client-Sprachen gehören Python, C++, HTML, Java und C#.