谷歌 DeepMind 推出千億級視覺語言數據集 WebLI-100B
谷歌 DeepMind 團隊正式推出了 WebLI-100B 數據集,這是一個包含1000億個圖像 - 文本對的龐大數據集,旨在增強人工智能視覺語言模型的文化多樣性和多語言性。通過這一數據集,研究人員希望改善視覺語言模型在不同文化和語言環境下的表現,同時減少各個子組之間的性能差異,從而提升人工智能的包容性。視覺語言模型(VLMs)依賴於大量數據集來學習如何連接圖像與文本,從而執行如圖像字幕生成和視覺問答等任務。過去,這些模型主要依賴於 Conceptual Captions 和 LAION 等大型數據集,雖然這