当前位置: 首页 > news >正文

苏州建行网站wordpress设置固定连接打不开

苏州建行网站,wordpress设置固定连接打不开,南宁网站推广经理,中国电子商务门户本期学习: 利用网页指纹去重 众所周知,代理是要花钱的,那么在爬取(测试)巨量网页的时候,就不可能对已经爬取过的网站去重复的爬,这样会消耗大量的时间,更重要的是会消耗大量的IP (金…

本期学习: 利用网页指纹去重

众所周知,代理是要花钱的,那么在爬取(测试)巨量网页的时候,就不可能对已经爬取过的网站去重复的爬,这样会消耗大量的时间,更重要的是会消耗大量的IP (=金钱 💵)

1 指纹机制

所谓指纹,就是把网页的数据生成一个唯一性的数据,相当于程序给每个网页留了个痕迹,爬取过的网页,留下指纹,那下次只要比对一下我们指纹库:有的,就直接跳过,那就不存在重复爬取的问题了;没有的,爬取数据,留下指纹。这个机制非常适合我们这个使用了selenium来进行翻页的scrapy工程。

2 指纹实现

首先在爬虫初始化__init__的时候增加一个指纹文件:

        self.fp_file = 'fingerprints.json'

然后在 start_requests 判断这个文件是否存在,不存在的话需要创建,注意到以列表形式存储:

      	#创建指纹存储文件if not os.path.exists(self.fp_file):with open(self.fp_file, 'w') as f:json.dump([], f)

然后实现指纹的3个方法

    # 生成指纹def get_fingerprint(self, page_content):return md5(page_content.encode('utf-8')).hexdigest()# 判断指纹是否存在def fingerprint_exists(self, fingerprint):with open(self.fp_file, 'r') as f:fingerprints = json.load(f)return fingerprint in fingerprints# 保存指纹def save_fingerprint(self, fingerprint):with open(self.fp_file, 'r+') as f:fingerprints = json.load(f)fingerprints.append(fingerprint)f.seek(0)json.dump(fingerprints, f)f.truncate()

最后一步,添加到爬取的逻辑中,这边尝试添加在parse_page (不清楚的话需要回看前几期的博客文章)

        # 生成指纹fingerprint = self.get_fingerprint(page_source)# 判断指纹是否存在if self.fingerprint_exists(fingerprint):self.logger.info('指纹已存在,跳过 %s', fingerprint)return# 保存指纹self.save_fingerprint(fingerprint)

3 测试

测试的时候先爬去一下,检查下fingerprints.json是否生成了,然后等待爬虫爬取一段时间,看json文件中指纹数据是否有增加,然后停止爬虫,重新开始,测试指纹能否帮助跳过已经爬取过的页面。

测试截图如下,发现可以生效的。如果不跳过,则item代码会去比较数据库中是否存在这个评论,这里却没有这个过程,说明通过指纹对比,把已经爬取过的页面跳过了

在这里插入图片描述

http://www.yayakq.cn/news/333179/

相关文章:

  • mvc网站开发实例智能设计平台
  • 酒店网站设计方案太原网络推广网站
  • 营销型网站建设服务电话流量主小程序怎么赚钱
  • 地方网站商城怎么做网站设计 珠海
  • 长沙做四维彩超玛丽亚m网站太原北京网站建设公司哪家好
  • 制作制作网站开发seo网站编辑优化招聘
  • 东莞网站设计流程制作手机网页教程
  • 网站颜色 字体企业年金办法
  • 美容加盟网站建设WordPress取消签名
  • 北京电子商务app网站建设大兴正规外贸网站建设公司
  • 思茅区建设局网站品牌推广是什么
  • 做3d动画网站企业网站建设售后服务内容
  • 网站建设与管理好过吗wordpress主题太大
  • 百度南京代理商seo工具助力集群式网站升级
  • html网站尾部怎么做新乐市住房和城乡建设局网站
  • 怎么做网站注册系统网站制作公司十强
  • 网站建设与网页制作试卷明空网络做网站好不好
  • 360如何做网站优化怎么用wordpress搭建网站
  • 岳阳网站建设方案微信应用平台开发
  • 西安网站建设iseeyu公司网站用什么语言开发
  • 重庆合川企业网站建设联系电话余杭区建设局网站
  • 奉贤品牌网站建设便捷网站建设报价
  • 电脑网站制作深圳网络公司视频
  • 做网站需要数据库么许昌市建设路小学网站
  • 中企动力做网站一次性付款wordpress 搜索引擎ping
  • 用vs2008做的网站前台脚本是什么可信网站认证 代理商
  • 新乡手机网站建设官网第三方wordpress安卓客户端
  • 江门网站推广技巧方法整套网站模板
  • 做网站的素材哪里找的网站的客户体验
  • 优秀的商城网站首页设计公司实验室设计