北京大学とテンセントなどの研究機関の研究者らが、マルチモーダルアライメントフレームワーク「LanguageBind」を提案しました。このフレームワークは、言語を中心チャネルとして用いることで、マルチモーダル情報のセマンティックアライメントを実現します。研究チームはまた、クロスモーダル情報のトレーニングに使用されるVIDAL-10Mデータセットも構築しました。LanguageBindの提案は、マルチモーダル事前学習技術の発展の基礎を築くと同時に、画像を介することで発生する可能性のある情報損失を回避します。