多家科技公司因涉嫌非法抓取YouTube视频数据训练AI模型,遭内容创作者集体诉讼。原告指控苹果、亚马逊及OpenAI绕过平台反爬机制,通过Panda-70M数据集盗用数百万视频,其中部分原创内容被违规调用超500次,严重侵犯版权。
中国广播电视社会组织联合会演员委员会发布声明,针对AI换脸、声纹克隆及未经授权抓取数据训练模型等七类AI侵权行为明确禁止,强调即使标注“非商用”等字样也不能免责,侵权主体需承担全部法律责任。
2026年央视“3·15”晚会曝光AI大模型遭恶意“投毒”现象,点名北京力思文化传媒有限公司运营的“力擎GEO优化系统”。该系统涉嫌批量生成虚假产品信息与推广文章,利用生成式AI抓取机制误导模型。测试显示,即便输入虚构硬件参数,系统仍能协助用户传播不实信息,扰乱AI训练数据。
腾讯被指未经授权抓取ClawHub平台技能数据用于自家SkillHub项目,开发者公开指责其全量复制且未提供支持。腾讯回应称SkillHub旨在构建开放生态,否认不当行为。
Clura AI网络抓取器,可瞬间提取和整理任何网站数据,支持CSV导出。
AI 驱动的智能网页变化订阅工具。
拥有8000万住宅代理IP,可全球访问和抓取数据,快速可靠。
获取任何网站上的干净数据,1-5秒内完成抓取。
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$105
$525
200
$21
Google
$0.7
$2.8
1k
Alibaba
$6
$24
256
$8
$240
52
Moonshot
$4
$16
Baidu
32
$8.75
$70
400
$1.75
$14
$0.35
Tencent
24
Xai
Huawei
128
inference-net
Schematron-3B是由Inference.net推出的长上下文提取模型,专注于将嘈杂的HTML转换为符合自定义模式的干净、类型化的JSON。该模型针对网页抓取、数据摄取以及将任意页面转换为结构化记录进行了专门训练,为数据处理和分析提供了高效的解决方案。
AUTOMATIC
基于DistilGPT2模型在majinai.art抓取的825条提示词数据上进行40轮次微调的文本生成模型,专门用于稳定扩散提示词生成,支持正向和负向提示词生成
Apify MCP服务器是一个基于模型上下文协议(MCP)的工具,允许AI助手通过数千个现成的爬虫、抓取器和自动化工具(Apify Actor)从社交媒体、搜索引擎、电商等网站提取数据。它支持OAuth和Skyfire代理支付,可通过HTTPS端点或本地stdio方式集成到Claude、VS Code等MCP客户端中。
Hyperbrowser的MCP服务器提供网页抓取、结构化数据提取和浏览器代理工具。
Apify MCP服务器是一个实现Model Context Protocol(MCP)的服务,允许AI助手通过SSE或Stdio与Apify平台上的各种Actor交互,执行数据抓取、网页搜索等任务。
MCP-GetWeb是一个提供网页搜索和内容提取功能的协议服务器,支持DuckDuckGo、Google、Felo AI等多种搜索引擎,并能抓取URL内容、提取元数据和转换为Markdown格式。
一个基于MCP协议的Reddit数据抓取服务器,通过Apify云服务快速搜索Reddit帖子、评论和用户,并支持线索监控和品牌提及发现。
Scrapezy MCP服务器是一个为AI模型提供从网站提取结构化数据的服务,支持通过Claude等工具进行数据抓取。
Scrapezy MCP服务器是一个用于从网站提取结构化数据的AI模型服务,支持通过Claude等工具进行数据抓取。
Clado的官方MCP服务器,提供LinkedIn用户搜索、资料丰富、联系人检索、内容抓取和互动数据分析等功能。
Oxylabs MCP服务器为AI助手提供网页数据抓取服务,支持动态渲染、结构化提取和反封锁功能。
Scraper.is MCP是一个为AI助手设计的网页抓取工具,通过Model Context Protocol协议集成,支持从任意网站提取内容、截图并以多种格式返回数据。
Dumpling AI MCP服务器是一个集成了多种AI功能的模型上下文协议服务器,提供数据抓取、内容处理、知识管理、AI代理和代码执行等能力。
一个基于Node.js和Gemini API的AI研究助手工具,通过Firecrawl进行网页数据抓取,利用Gemini大模型进行深度语言理解和报告生成,支持迭代式深度研究,并可与MCP协议集成。
XActions是一个完整的X/Twitter自动化工具包,提供浏览器脚本、CLI、Node.js库、MCP服务器和仪表板,无需API密钥和付费,支持多平台数据抓取、自动化操作和AI代理集成。
Crawl4AI MCP服务器是一个高性能的模型上下文协议服务器,为AI助手提供网页抓取、爬取和深度研究功能,通过CloudFlare Workers部署,支持OAuth认证和结构化数据提取。
Firecrawl MCP Server是一个基于Firecrawl API的网络爬虫和数据提取服务,提供网页抓取、内容搜索、站点爬取和结构化数据提取功能。
基于MCP协议的微博数据抓取服务器
LinkedIn数据采集MCP服务器,通过手动输入账号密码认证,使用Selenium浏览器自动化技术抓取LinkedIn个人资料的完整信息,包括工作经历、教育背景、技能和联系方式等
AnyCrawl MCP Server是一个基于模型上下文协议(MCP)的网页爬取和抓取服务器,支持单页抓取、网站爬取和搜索引擎集成,提供多种输出格式和引擎选择。
Scrappey MCP服务器为AI模型与Scrappey网页自动化平台搭建桥梁,提供会话管理、HTTP请求发送、浏览器操作等功能
该脚本用于从GitHub页面抓取MCP服务器的配置信息,主要针对LiteLLM使用。通过解析JSON配置或下拉菜单中的Docker、npx等配置实现数据采集。