PornHubBot
PornHubBot项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接
项目爬的是PornHub.com,结构简单,速度飞快
爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络,所以相对慢一点。
10个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]
环境、架构
开发语言: Python2.7
开发环境: MacOS系统、4G内存
数据库: MongoDB
主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
并支持分页爬取数据,并加入到待爬队列。
使用说明
启动前配置
安装MongoDB,并启动,不需要配置
安装Scrapy
安装Python的依赖模块:pymongo、json、requests
根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置
启动
python PornHub/quickstart.py
运行截图
数据库说明
数据库中保存数据的表是 PhRes。以下是字段说明:
PhRes 表:
video_title:视频的标题,并作为唯一标识. link_url:视频调转到PornHub的链接 image_url:视频的封面链接 video_duration:视频的时长,以 s 为单位 quality_480p: 视频480p的 mp4 下载地址
1、网站资源均通过网络等合法渠道获取,该资料仅作为学习交流,其版权归出版社或者原作者所有,下载后请于24小时内删除,如有真实需要请支持正版!因下载本站任何资源造成的损失,全部责任由使用者本人承担!本网站不对所涉及的版权问题负责。网站售卖的价格绝对不是商品价格,而是整理资料的成本。
2、如果你是版权方,认为本文内容对您的权益有所侵犯,请联系博主, 侵删联系 的说明提交相应的证明材料,待博主进行严格地审查后,情况属实的将在三天内将本文删除或修正。
3、博主是利用读书、参考、引用、抄袭、复制和粘贴等多种方式打造成自己资源文章,请原谅博主成为一个文档搬运工!
4、本站虚拟货币充值或数字资源购买后,均不可以任何理由退换!购买前(请慎重考虑)
5、附注:根据二○○二年一月一日《计算机软件保护条例》规定:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。
6、数字千年版权法案(DMCA)DT模板网网站接受受版权保护的内容DMCA侵权通知。
联系客服