最近、LAIONは、安全性の審査を受けた新しいAIトレーニング用データセット「Re-LAION-5B」を発表しました。この新しいデータセットは、以前から好評だったLAION-5Bを大幅に改良したもので、特に児童性的虐待素材(CSAM)関連のリンクの削除に重点が置かれています。LAIONによると、Re-LAION-5Bは、テキストと画像のペアのデータセットにおいて、既知のCSAMリンクを網羅的に削除した世界初のウェブ規模のデータセットです。
LAIONの広報担当者は、Re-LAION-5Bは主に「Re-LAION-5B Research」と「Re-LAION-5B Research-Safe」の2つのバージョンで構成されると述べています。この新しいデータセットでは、児童保護団体と協力して提供されたリストに基づいて検査を行い、合計2,236個のリンクが削除されました。そのうち1,008個のリンクは、スタンフォードインターネット観測所が2023年12月に発表した報告書で確認されたものです。
注目すべきは、LAIONが、多くの既知の児童性的虐待素材のリンクは、関連機関がこれらのコンテンツをパブリックインターネットから削除するために努力しているため、既に非アクティブになっている可能性が高いと指摘していることです。そのため、この数字は可能性の上限を示しており、実際にCSAMリンクに繋がっているものはもっと少ない可能性があります。Re-LAION-5Bは現在、55億組のテキストと画像を含んでおり、第三者はこれらのメタデータを利用して既存のLAION-5B派生作品をクリーンアップし、差異を生成して一致するすべてのコンテンツを削除できます。
LAIONは、Re-LAION-5Bの公開を通じて、ウェブ規模のデータセットのクリーンアップに関する新しい安全基準を設定したいと考えています。このアップデートは、元のLAION-5Bデータセットが患者画像を含んでいたとして批判された後に実施されたものです。同時に、LAIONは、AIトレーニング用データセットにおけるCSAMの存在は非常に深刻な問題であり、特にトレーニングされたシステムの中にはCSAMコンテンツの生成に使用されているものもあると指摘しています。
インターネット監視財団(IWF)の報告によると、2023年秋以降、AI生成の児童性的虐待素材が大幅に増加しています。このようなAIコンテンツの増加は、実際の児童虐待事件の捜査に支障をきたすだけでなく、ソーシャルメディアプラットフォームでのCSAMに関する自動生成レポートの数を急増させ、問題の複雑さをさらに増しています。
要点:
🌟 Re-LAION-5Bは、テキストと画像のペアのデータセットにおいて、CSAMリンクを網羅的に削除した世界初のウェブ規模のデータセットです。
🔗 児童保護団体からの既知のリンク1,008件を含む、合計2,236個のリンクが削除されました。
🛡️ LAIONは、この新しいデータセットがウェブ規模のデータセットのクリーンアップのための新しい安全基準を確立することを期待しています。