Meta 發佈 WebSSL 模型:無語言視覺學習的新探索
在人工智能領域,Meta 公司最近推出了 WebSSL 系列模型,這一系列模型的參數規模從3億到70億不等,基於純圖像數據進行訓練,旨在探索無語言監督的視覺自監督學習(SSL)的巨大潛力。這一新研究爲未來的多模態任務帶來了新的可能性,也爲我們理解視覺表徵的學習方式提供了新的視角。過去,OpenAI 的 CLIP 模型因其在視覺問答(VQA)和文檔理解等多模態任務中的優異表現而備受關注。然而,由於數據集的獲取複雜性及其規模限制,基於語言的學習方法面臨諸多挑戰。爲了應對這一問題,