ウィキペディア、AIトレーニングデータセットを公開、クローラーによるデータ取得を抑制
ウィキペディアは先日、Google傘下のデータサイエンスコミュニティプラットフォームKaggleとの協力により、人工知能モデルのトレーニング用に最適化されたデータセットを公開すると発表しました。この取り組みは、AI開発者がクローラープログラムを使用してウィキペディアのデータを収集する行為を減らし、プラットフォームの帯域幅とサーバーリソースを保護することを目的としています。このデータセットの内容には、構造化された英語とフランス語のウィキペディア情報が含まれており、機械可読性に優れ、AI開発者がモデリング、ファインチューニング、データ分析を容易に行うことができます。ウィキメディア財団は、このデータ...