博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3下scrapy爬虫(第十四卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行)
阅读量:5225 次
发布时间:2019-06-14

本文共 522 字,大约阅读时间需要 1 分钟。

现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中

现在我们需要在SETTING.PY设置我们的爬虫文件

再添加PIPELINE

注释掉的原因是爬虫执行完后,和本地存储完毕还需要向主机进行存储会给主机造成压力

设置完这些后,在MASTER主机开启REDIS服务,将代码复制放在其它主机中,注意操作系统类型以及配置

然后分别在各个主机上进行爬取,爬取速度加大并且结果不同

setting中加入这个可以保证爬虫不会被清空

设置这个决定重新爬取时队列是否清空,一般都用FALSE

我们现在是否分别到主机上执行爬取,现在我想直接在一台主机上控制所有的爬虫程序,现在引入SCRAPYD,他会启动WEB服务来管理所有的项目

看下步骤

1启动SCRAPYD

2可以远程访问

3运用SCPRAPYD-CLIENT来打包项目

4修改爬虫的scrapy.cfg文件

将地址改为远程的SCRAPYD服务地址

执行此命令完成部署

开启一个远程进程

开几条指令,执行几条进程,每一个JOB都个ID如果是多个机器的任务那么ID则不同

 

转载于:https://www.cnblogs.com/woshiruge/p/8456743.html

你可能感兴趣的文章
com.fasterxml.jackson.databind.JsonMappingException
查看>>
HTML标签_1
查看>>
滚动条
查看>>
程序员的自我修养九Windows下的动态链接
查看>>
细说WebSocket - Node篇
查看>>
Extjs控件之 grid打印功能
查看>>
枚举类型(不常用)递归
查看>>
minggw 安装
查看>>
Jquery操作cookie,实现简单的记住用户名的操作
查看>>
【原创】大数据基础之Zookeeper(4)应用场景
查看>>
静态变量数组实现LRU算法
查看>>
中文系统 上传file的input显示英文
查看>>
比callback更简洁的链式执行promise
查看>>
android permission
查看>>
【译】在Asp.Net中操作PDF - iTextSharp - 使用字体
查看>>
.net 文本框只允许输入XX,(正则表达式)
查看>>
[BSGS][哈希]luogu P3846 可爱的质数
查看>>
Python 第四十五章 MySQL 内容回顾
查看>>
iostat参数说明
查看>>
实验2-2
查看>>