当前位置: 首页 > news >正文

怎么做区块链网站企业网站seo报价

怎么做区块链网站,企业网站seo报价,win8 风格网站模板,手机单页网站通用模板原生scrapy如何接入scrapy-redis,实现初步入局分布式 前言scrpy-redis分布式碎语 实现流程扩展结束 前言 scrpy-redis分布式 下图是scrpy-redis官方提供的架构图,按我理解,与原生scrapy的差异主要是把名单队列服务器化,也是存储…

原生scrapy如何接入scrapy-redis,实现初步入局分布式

  • 前言
    • scrpy-redis分布式
    • 碎语
  • 实现流程
  • 扩展
  • 结束

前言

scrpy-redis分布式

下图是scrpy-redis官方提供的架构图,按我理解,与原生scrapy的差异主要是把名单队列服务器化,也是存储在redis服务中,从而实现分布式。(当然还有piplines采集结果数据的存储差异化,它也可以存储到redis中,实现数据存储分布式)
在这里插入图片描述
其实一套完整、健全的采集框架可以在scrapy-redis的基础上加入代理池服务cookie池服务数据存储服务等等,一般来说不会把解析流程放在采集时做,每个环节只做自己的事情,不要越界,所有后面还会有解析入库服务(听听就好,这套流程搞起来太麻烦了,一般开发都是直接scrapy项目集成搞定)。想法还是要有的,这套流程不只是解耦,更是为了监控和日志统计。

碎语

scrapy-redis分布式实现流程网上有很多教程,参考源码和博客教程后(看是看得懂,关键还是得实践),在这些基础上,整理出自己的实现经验。

实现流程

  1. 安装scrapy-redis
pip install scrapy-redis
  1. sessting配置文件中添加下面配置信息
    这是最基本的配置
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"# redis
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
# REDIS_ENCODING = 'utf-8'
# REDIS_PARAMS = {'password': 'redispasswordqwe'}  # 如果有密码的话
  1. 采集脚本修改必要参数
    scrapy脚本的一般样式如下
    在这里插入图片描述
    接入scrapy-reids后的一般样式如下
    在这里插入图片描述
    到一步其实我们就已经实现好代码层的改动了,只要运行成功就表示已经接入成功
  2. 往redis写入名单
    运行后发现采集脚本的逻辑并没有执行,且程序一直在运行着,这是因为scrapy-redis会一直监听redis队列,只要往redis写入名单队列,scrapy-redis就会自动拿到名单并执行采集脚本的逻辑,所以这一步我们需要往redis写入对应的key的名单。
lpush dmoz:start_urls http://www.dmoz-odp.org/  # scrapy-redis的采用的start_urls是列表结构

原生命令or工具
在这里插入图片描述
写入成功后就可以看到程序跑起来了。

扩展

使用scrapy-redis后,一般情况下在某个脚本编号下redis会生成三个key,分别是
在这里插入图片描述
其中

  1. start_urls是初始名单队列,使用的是列表数据结构
  2. dupefilter是去重队列,这个只有你开启了去重机制才会生成,默认是不开启的,使用的是集合数据结构
  3. requestsscheduler名单队列,我们知道所有名单都是由scheduler发送给调度器的,而scheduler的名单一般是两个来源,一个是初始名单队列;另一个是由Spider提取后发送到scheduler的,这一步就会生成这个key,并且它是有积分优先级机制的(priority),所以它使用的是有序集合数据结构

所有其实我们也可以直接生成requests名单队列,当然生成方式会相对复杂,这个后面分享分享~

结束

好了,分享就到这了,有啥错误的地方请指正~

http://www.yayakq.cn/news/817545/

相关文章:

  • 站酷网怎么赚钱手机网站建设哪家优惠
  • 深圳网站营销公司宁波seo推广咨询
  • 做一年的网站维护价格阿里巴巴国际贸易网站
  • 相册网站怎么做广州app客户端开发
  • 360优化大师安卓版下载南通网站搜索引擎优化
  • 网站建设内容介绍云南工程建设总承包公司网站
  • 网站免费搭建wordpress博客分享
  • 济南营销网站建设价格网站设计优化
  • 郑州知名网站推广实验教学中心网站建设
  • 网站怎么做内链外链网络规划设计师和hcie
  • 潮州外贸网站建设wordpress账户密码
  • 电子商务网站域名注册要求wordpress 文章发布 编辑器
  • 神农架网站设计怎么弄微信小程序卖东西
  • 搜索技巧的网站wordpress最好的页面编辑器
  • 网站地图 模板学科专业建设规划
  • 那家网站建设好网站建设设计ppt
  • 南通优普网站建设制作nodejs做后端的网站
  • 做网站的具体步骤wordpress设置教程
  • 网站建设与优化计入什么科莫wordpress怎么设置标签分类
  • 专业做生鲜的网站建立视频网站要多少钱
  • 孟村县做网站价格北京网站开发最专业的公司
  • 专业从事网站开发公司新媒体营销的定义
  • 网站建设培训招生网站权重不稳定
  • 深圳罗湖住房和建设局网站官网做自由行的网站
  • 电子商务网站需求分析做损坏文档的网站
  • 北风风淘网站开发东莞横沥中学
  • 销售型企业网站建设应遵守的原则优化培训课程
  • 网站优化的作业及意义wordpress历史版本下载
  • 免费广告设计模板网站建博会广州网站
  • php网站开发接口开发网站建设合同违约条款