AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

bookcorpus

爬取图书语料库

bookcorpus corpus crawler nlp scraper

创建时间：2018-07-14T12:46:30

更新时间：2025-07-29T08:34:54

838

Stars

0

Stars Increase

相关项目

Scrapy

Scrapy是一个快速、高级的Python网页爬取和抓取框架。

Colly

Go语言优雅的爬虫框架

Crawlee

Crawlee 是一个基于 Node.js 的网页抓取和浏览器自动化库，用于构建可靠的爬虫程序。它支持 JavaScript 和 TypeScript，可以提取数据用于 AI、大型语言模型 (LLM)、检索增强生成 (RAG) 或 GPT 等应用。它能够下载网站上的 HTML、PDF、JPG、PNG 等各种类型的文件。兼容 Puppeteer、Playwright、Cheerio、JSDOM 和原生 HTTP 请求。支持有头和无头模式，并提供代理轮换功能。

Webmagic

一个可扩展的Java网络爬虫框架

Nlp_chinese_corpus

海量中文自然语言处理语料库

Wiseflow

每天利用大型语言模型从海量信息和各种来源中挖掘你感兴趣的内容。

Autoscraper

一款智能、自动、快速且轻量级的Python网页抓取工具

Scrapy Redis

基于Redis的Scrapy组件

Haipproxy

基于Scrapy和Redis的高可用分布式IP代理池

Corpora

一些有趣的小型数据集，可用于创建机器人和其他类似程序。