用於訓練 Stable Diffusion 的數據集背後的組織聲稱已經刪除了 CSAM
德國研究機構LAION創建併發布了新數據集Re-LAION-5B,聲稱已清除疑似兒童性虐待材料(CSAM)鏈接。該數據集是舊數據集LAION-5B的修復版,採納了互聯網觀察基金會、人權觀察、加拿大兒童保護中心和斯坦福互聯網觀察站的建議。Re-LAION-5B分爲兩個版本:Research和Research-Safe,後者額外刪除了NSFW內容。數據集旨在支持Stable Diffusion等生成式AI模型的訓練,且不包含圖像,僅提供圖像鏈接和替代文本的索引。Re-LAION-5B的發佈前,斯坦福互聯網觀察站發現LAION-5B包含非法圖片鏈接,且數據集中可能存在不當內容。LAION已暫時下線原數據集,並承諾刪除已知違規鏈接。新數據集包含約55億個文本圖像對,根據Apache2.0許可發佈。LAION強調數據集用於研究而非商業目的,並鼓勵使用元數據清理現有副本。