近年、人工知能技術の急速な発展に伴い、ウェブクローラーがウィキメディアプロジェクトに与える帯域幅への負担がますます深刻になっています。ウィキメディア財団の代表者は、2024年1月以降、マルチメディアファイルのサービスに使用する帯域幅消費量が50%増加したと指摘しています。この増加は主に、ウィキメディアのオープンライセンス画像ライブラリからコンテンツを継続的に取得し、AIモデルのトレーニングに使用している自動化プログラムによるものです。
ウィキメディア財団のBirgit Mueller氏、Chris Danis氏、Giuseppe Lavagetto氏は公開書簡で、この帯域幅の増加は人間のユーザーではなく、ロボットプログラムの強い需要によるものであると述べています。「私たちのインフラストラクチャは、高い関心のイベント中に人間のユーザーが突発的にアクセスするトラフィックにも耐えられるように設計されていますが、クローラーによって発生するトラフィックは前例のないものであり、ますます大きなリスクとコストをもたらしています。」と強調しています。
ウィキメディアの統計によると、高コストのコンテンツトラフィックの約65%はこれらのクローラーによって生成されていますが、クローラーはページビューの35%しか占めていません。これは、ウィキメディアのキャッシュスキームが人気のあるコンテンツを世界中のデータセンターに配信してパフォーマンスを向上させるためですが、クローラーはページにアクセスする際にコンテンツの人気度を考慮しないため、それほど人気のないコンテンツを要求することがあります。そのため、コンテンツはコアデータセンターから取得する必要があり、より多くの計算リソースを消費します。
過去1年間、ウェブクローラーによる過剰なクロール問題は、複数のオープンソースプロジェクトの注目を集めています。たとえば、GitホスティングサービスのSourcehut、Diasporaの開発者Dennis Schubert氏、修理サイトのiFixit、ReadTheDocsなどは、不満を表明しています。これらはすべて、AIクローラーがコンテンツ取得において過剰な需要を示していることを反映しています。
ウィキメディア財団は、2025/2026年度計画で「クローラーによって生成されるトラフィックの削減」を目標に掲げ、リクエストレートを20%、帯域幅使用量を30%削減することを計画しています。人間のユーザーエクスペリエンスを優先し、ウィキメディアプロジェクトと貢献者を支援することを目指しています。
多くのウェブサイトは、クローラーへの帯域幅提供がビジネスの一部であることを認識していますが、ChatGPTのような生成AIの普及に伴い、クローラーのクロール行為はますます積極的になり、元のウェブサイトの存在を脅かす可能性さえあります。ウィキメディア財団は、WikipediaとWikimedia Commonsが機械学習モデルのトレーニングにとって非常に重要であることを認めつつも、人間のユーザーのニーズを優先しなければならないと認識しています。
この課題に対処するために、データポイズニングプロジェクトGlaze、Nightshade、ArtShield、およびウェブツールKudurru、Nepenthesなど、クローラーの過剰なクロール行為に対抗するためのツールが登場しています。しかし、既存のrobots.txtは、これらのクローラーの行動、特にそれらがブロックを回避するために他のクローラーになりすます可能性を完全に制限することはできません。
要点:
🌐 クローラーによるウィキメディア帯域幅の消費が50%増加し、これは主にAIモデルによるコンテンツ取得によるものです。
🤖 高コストのコンテンツトラフィックの約65%はクローラーによって生成され、クローラーはページビューの35%しか占めていません。
📉 ウィキメディア財団は、2025/2026年にクローラーによって生成されるトラフィックを削減し、人間のユーザーのニーズを優先することを計画しています。