AIモデルのトレーニングデータ取得を阻むWebドメイン数の急増
AIモデルは、Web上のトレーニングデータへのアクセスを失いつつあり、データ遮断率は1%から5~7%に増加しています。14,000のドメインのrobots.txtファイルと利用規約を分析した結果、ニュースサイト、フォーラム、ソーシャルメディアプラットフォームがAIデータアクセス制限の主要な原因であることがわかりました。特にニュースサイトでは、遮断率が3%から45%に急増しています。AIトレーニングデータにおける高品質なニュースコンテンツの割合が減少し、低品質の企業向けECコンテンツが取って代わる可能性があります。この傾向は、高品質なデータに依存するAI開発者にとって大きな課題となっています。