Kürzlich hat der Tongyi-Entwicklerteam CoGenAV veröffentlicht, das die Idee der "Ton-Bild-Synchronisierung" zur Innovation in der Spracherkennungstechnologie einsetzt und erfolgreich das Problem von Rauschstörungen bei der Spracherkennung löst.
Traditionelle Spracherkennung zeigt bei rauschartigen Umgebungen mäßige Leistungen, während CoGenAV einen neuen Weg beschreitet. Durch das Lernen von zeitlicher Alignierung zwischen audio-visuellen-Text-Daten erstellt es einen robusteren und allgemeineren Sprachrepräsentationsrahmen, was systematisch die Leistung verschiedener Speech-Centric-Aufgaben wie Spracherkennung (VSR/AVSR), Sprachrekonstruktion (AVSS/AVSE) sowie die Synchronisation von Sprache (ASD) verbessert.
In technischer Hinsicht nutzt CoGenAV eine "vergleichende Generative Synchronisationsstrategie". Im Merkmalsextraktionsstadium nutzt das Modell ResNet3D CNN zur Analyse der Lippenbewegungen des Sprechenden im Video und fängt die dynamische Korrelation zwischen Ton und Mundbewegungen ein. Gleichzeitig extrahiert es mit einem Transformer-Encoder sprachbezogene Informationen aus dem Audio und passt die Ton-Video-Merkmale präzise zu. Die vergleichende generative Synchronisationsausbildung verbessert das Verständnis des Modells durch zwei Wege: Vergleichende Synchronisation und Generative Synchronisation. Die Vergleichssynchronisation verwendet Seq2Seq Contrastive Learning, um die Zuordnung zwischen Audiomerkmalen und Videomerkmalen zu verstärken und ReLU-Funktionen zur Filterung von Störframesetzen einzuführen. Die generative Synchronisation greift auf vortrainierte ASR-Modelle zurück, um die tonale-video-repräsentativen Merkmale mit deren akustisch-textlichen Darstellungen zu alignieren und leichte Anpassungsmodule zu entwerfen, um die Effizienz der multimodalen Fusion zu steigern.
Mit diesen innovativen Technologien erzielte CoGenAV bahnbrechende Ergebnisse in verschiedenen Benchmark-Datensätzen. In der visuellen Spracherkennung (VSR) erreichte es mit nur 223 Stunden an Videos der Lippenbewegungen einen Wortfehlerrate (WER) von 20,5% auf der LRS2-Datensatz, was sich messbar den Resultaten traditioneller Modelle nähert, die Tausende von Stunden an Daten nutzen. Bei der audiovisuellen Spracherkennung (AVSR) kombiniert mit dem Whisper Medium-Modell erreichte es auf dem gleichen Datensatz eine WER von 1,27%, was ein neues SOTA-Rekord ist und bei einem Rauschpegel von 0 dB eine Verbesserung von über 80% gegenüber rein auditiven Modellen zeigt. In der Sprachverbesserung und -separation (AVSE/AVSS) erreichte es als Visual-Feature-Extractor einen SDRi-Wert von 16,0 dB im LRS2-Voice-Separation-Task, was 1,6 dB besser als AvHuBERT und 0,3 dB besser als Av SepFormer ist. In der Sprachverbesserung erreichte es einen SDRi-Wert von 9,0 dB, was ebenfalls 1,6 dB besser als Av HuBERT ist. In der aktivem Sprechererkennung (ASD) erreichte es im Talkies-Datensatz einen mittleren Präzisionswert (mAP) von 96,3%, was der bestehenden Methode überlegen ist.
CoGenAV kann direkt mit gängigen Spracherkennungsmodellen wie Whisper integriert werden, ohne Änderungen oder Micro-Tuning, um die visuelle Spracherkennungsfunktion bereitzustellen, wodurch die Einführung erleichtert wird. Es zeigt herausragende Rauscharmut und Dateneffizienz, reduziert beträchtlich die Trainingskosten und erhöht die Praktikabilität und Erweiterungspotenzial des Modells. Derzeit sind die relevanten Codes und Modelle von CoGenAV auf Plattformen wie GitHub, arivx, HuggingFace und ModelScope öffentlich verfügbar, um Forscher und Entwickler zu unterstützen.
GitHub: https://github.com/HumanMLLM/CoGenAV
arivx: https://arxiv.org/pdf/2505.03186
HuggingFace: https://huggingface.co/detao/CoGenAV
ModelScope: https://modelscope.cn/models/iic/cogenav