AV-HuBERT ist ein selbstüberwachtes Repräsentationslernframework, speziell für die audiovisuelle Sprachverarbeitung entwickelt. Es erreichte im LRS3-Benchmark für audiovisuelle Sprache State-of-the-Art-Ergebnisse in den Bereichen Lippelesen, automatische Spracherkennung (ASR) und audiovisuelle Spracherkennung. Das Framework lernt audiovisuelle Sprachrepräsentationen durch maskierte multimodal Cluster-Vorhersage und bietet eine robuste selbstüberwachte audiovisuelle Spracherkennung.