AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
数据集市
ZH

AI资讯

查看更多

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示,这份数据集以开放许可的方式发布,内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分,但

12.7k 7 小时前
​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

​维基媒体基金会对 AI 爬虫的带宽负担发出警告

近年来,随着人工智能技术的飞速发展,网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出,自2024年1月以来,用于服务多媒体文件的带宽消耗增加了50%。这一增长主要来源于自动化程序,这些程序不断从维基媒体的开放许可图像库中抓取内容,以供 AI 模型进行训练。维基媒体基金会的工作人员 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公开信中表示,这一带宽增加并非源于人类用户,而是由于机器人程序的强大需求。他们强调:“我们的基础设施旨在承受人类

26.3k 1 天前
​维基媒体基金会对 AI 爬虫的带宽负担发出警告
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图