AV-HuBERT是一个自监督表示学习框架,专门用于音视觉语音处理。它在LRS3音视觉语音基准测试中实现了最先进的唇读、自动语音识别(ASR)和音视觉语音识别结果。该框架通过掩蔽多模态聚类预测来学习音视觉语音表示,并且提供了鲁棒的自监督音视觉语音识别。