AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航 MCP

反盗版组织下线 AI 训练数据集 “Books3” Meta 大模型也曾使用

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Aug 22, 2023

近日，反盗版组织要求下线在线盗版书籍资源库 The Eye 上的 AI 训练数据集 “Books3”，该数据集包含 37GB 的文本，用于训练人工智能模型。该组织表示 AI 对版权产生了新的挑战，需要加强监管和规范。尽管数据集已被下线，但发布者又发布了新的下载链接。大型科技公司如 Meta 也使用了该数据集。反盗版组织计划继续打击存有该数据集的网站。

反盗版组织 AI 训练数据集 Meta 大模型

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

维基百科发布 AI 训练数据集，旨在阻止爬虫抓取

维基百科近日宣布，将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作，发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为，保护平台的带宽和服务器资源。该数据集的内容包括英语和法语的结构化维基百科信息，具有良好的机器可读性，便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示，这份数据集以开放许可的方式发布，内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分，但

2025年4月18号 10:28

2.1k

哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

哈佛大学周四宣布，将公开一份包含近百万本公共领域图书的高质量数据集，任何人都可以利用它来训练大型语言模型和其他 AI 工具。这份数据集由哈佛大学新成立的机构数据倡议（Institutional Data Initiative）创建，并获得了微软和 OpenAI 的资金支持。其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。它涵盖了各种类型、年代和语言，既有莎士比亚、查尔斯·狄更斯和但丁的经典之作，也有

2024年12月12号 14:14

2.8k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

反盗版组织下线 AI 训练数据集 “Books3” Meta 大模型也曾使用

站长之家

本文来自AIbase日报

相关AI新闻推荐

​维基百科发布 AI 训练数据集，旨在阻止爬虫抓取

哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

维基百科发布 AI 训练数据集，旨在阻止爬虫抓取