AV-HuBERT est un framework d'apprentissage de représentations autosupervisé, spécialement conçu pour le traitement audio-visuel de la parole. Il a atteint des résultats de pointe en lecture labiale, en reconnaissance automatique de la parole (ASR) et en reconnaissance audio-visuelle de la parole lors des tests de référence LRS3. Ce framework apprend des représentations audio-visuelles de la parole grâce à la prédiction de clustering multi-modal masqué, et offre une reconnaissance audio-visuelle de la parole autosupervisée robuste.