爬取图书语料库
Scrapy是一个快速、高级的Python网页爬取和抓取框架。
Go语言优雅的爬虫框架
Crawlee 是一个基于 Node.js 的网页抓取和浏览器自动化库,用于构建可靠的爬虫程序。它支持 JavaScript 和 TypeScript,可以提取数据用于 AI、大型语言模型 (LLM)、检索增强生成 (RAG) 或 GPT 等应用。它能够下载网站上的 HTML、PDF、JPG、PNG 等各种类型的文件。兼容 Puppeteer、Playwright、Cheerio、JSDOM 和原生 HTTP 请求。支持有头和无头模式,并提供代理轮换功能。
一个可扩展的Java网络爬虫框架
海量中文自然语言处理语料库
每天利用大型语言模型从海量信息和各种来源中挖掘你感兴趣的内容。
一款智能、自动、快速且轻量级的Python网页抓取工具
基于Redis的Scrapy组件
基于Scrapy和Redis的高可用分布式IP代理池
一些有趣的小型数据集,可用于创建机器人和其他类似程序。