ハーバード大学、AIモデル向けの高品質トレーニング素材となる数千万冊の書籍データセットを公開
ハーバード大学は先日、約100万冊の公共ドメイン書籍で構成されるデータセットを公開する計画を発表しました。このデータセットは、誰でも大規模言語モデルやその他の人工知能ツールをトレーニングするために使用できます。このプロジェクトは、ハーバード大学の新設機関であるInstitutional Data Initiativeが主導し、マイクロソフトとOpenAIの資金提供を受けて完成しました。このデータセットには、Google Booksプロジェクトからのスキャン書籍が含まれており、シェイクスピア、ディケンズ、ダンテなどの古典作品を網羅しています。