北京大学与腾讯等机构研究者提出了多模态对齐框架 LanguageBind,该框架通过语言作为中心通道实现了多模态信息的语义对齐。研究团队还构建了 VIDAL-10M 数据集,用于跨模态信息的训练。LanguageBind 的提出为多模态预训练技术的发展奠定了基础,同时避免了通过图像中介可能引入的信息损失。