用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM
德国研究机构LAION创建并发布了新数据集Re-LAION-5B,声称已清除疑似儿童性虐待材料(CSAM)链接。该数据集是旧数据集LAION-5B的修复版,采纳了互联网观察基金会、人权观察、加拿大儿童保护中心和斯坦福互联网观察站的建议。Re-LAION-5B分为两个版本:Research和Research-Safe,后者额外删除了NSFW内容。数据集旨在支持Stable Diffusion等生成式AI模型的训练,且不包含图像,仅提供图像链接和替代文本的索引。Re-LAION-5B的发布前,斯坦福互联网观察站发现LAION-5B包含非法图片链接,且数据集中可能存在不当内容。LAION已暂时下线原数据集,并承诺删除已知违规链接。新数据集包含约55亿个文本图像对,根据Apache2.0许可发布。LAION强调数据集用于研究而非商业目的,并鼓励使用元数据清理现有副本。