当前位置: 首页 > news >正文

网站备案几年备案一次吗国内欣赏电商设计的网站

网站备案几年备案一次吗,国内欣赏电商设计的网站,网站备案 接入商备案,继续网站建设本期学习: 利用网页指纹去重 众所周知,代理是要花钱的,那么在爬取(测试)巨量网页的时候,就不可能对已经爬取过的网站去重复的爬,这样会消耗大量的时间,更重要的是会消耗大量的IP (金…

本期学习: 利用网页指纹去重

众所周知,代理是要花钱的,那么在爬取(测试)巨量网页的时候,就不可能对已经爬取过的网站去重复的爬,这样会消耗大量的时间,更重要的是会消耗大量的IP (=金钱 💵)

1 指纹机制

所谓指纹,就是把网页的数据生成一个唯一性的数据,相当于程序给每个网页留了个痕迹,爬取过的网页,留下指纹,那下次只要比对一下我们指纹库:有的,就直接跳过,那就不存在重复爬取的问题了;没有的,爬取数据,留下指纹。这个机制非常适合我们这个使用了selenium来进行翻页的scrapy工程。

2 指纹实现

首先在爬虫初始化__init__的时候增加一个指纹文件:

        self.fp_file = 'fingerprints.json'

然后在 start_requests 判断这个文件是否存在,不存在的话需要创建,注意到以列表形式存储:

      	#创建指纹存储文件if not os.path.exists(self.fp_file):with open(self.fp_file, 'w') as f:json.dump([], f)

然后实现指纹的3个方法

    # 生成指纹def get_fingerprint(self, page_content):return md5(page_content.encode('utf-8')).hexdigest()# 判断指纹是否存在def fingerprint_exists(self, fingerprint):with open(self.fp_file, 'r') as f:fingerprints = json.load(f)return fingerprint in fingerprints# 保存指纹def save_fingerprint(self, fingerprint):with open(self.fp_file, 'r+') as f:fingerprints = json.load(f)fingerprints.append(fingerprint)f.seek(0)json.dump(fingerprints, f)f.truncate()

最后一步,添加到爬取的逻辑中,这边尝试添加在parse_page (不清楚的话需要回看前几期的博客文章)

        # 生成指纹fingerprint = self.get_fingerprint(page_source)# 判断指纹是否存在if self.fingerprint_exists(fingerprint):self.logger.info('指纹已存在,跳过 %s', fingerprint)return# 保存指纹self.save_fingerprint(fingerprint)

3 测试

测试的时候先爬去一下,检查下fingerprints.json是否生成了,然后等待爬虫爬取一段时间,看json文件中指纹数据是否有增加,然后停止爬虫,重新开始,测试指纹能否帮助跳过已经爬取过的页面。

测试截图如下,发现可以生效的。如果不跳过,则item代码会去比较数据库中是否存在这个评论,这里却没有这个过程,说明通过指纹对比,把已经爬取过的页面跳过了

在这里插入图片描述

http://www.yayakq.cn/news/541283/

相关文章:

  • 泰安网站制作推广广东深圳宝安区
  • 网站空间注册建设网站的书籍
  • dw怎么切片做网站苏州做网站优化
  • 衡水做网站优化深圳专门做seo的公司
  • 图书馆网站建设的意义目前网站开发趋势
  • 开发网站访问流量赚钱 align center
  • 招聘网站建设人员承德 网站建设
  • 包头怎样做网站wordpress 页面 瞄
  • 海外高端网站建设广州做网站服务
  • 网页设计和网站开发有什么区别临海建设银行网站
  • wordpress站点预览安徽圣力建设集团有限公司网站
  • 巨省网站设计有关的网站
  • 门户网站cms网络营销的基本方法有哪些
  • 百度静态网站网站设计要注意什么
  • 杭州正规企业网站建设网站制作公司制作网站
  • 如何做网站赚钱做兼职的网站打字员
  • 网站的注册和登录界面怎么做企业所得税怎么算2023年
  • 深圳如何搭建建网站检测 网站优化
  • 网站建设的多少钱做名片用什么网站
  • 在哪请人做网站wordpress可以做什么
  • 网站被挂马怎么办在线图片编辑源码
  • 社区微网站建设需求分析safari浏览器
  • 个人怎样做网站学校网站建设问卷调查表
  • sae 网站备案网站电脑培训班办公软件
  • node 网站开发 视频教程淘宝网站建设的策划书
  • 怎么挂代理访问网站竞价托管推广代运营
  • 西安做网站的云阔wordpress写文章卡
  • 百度云怎么找资源东莞搜索优化十年乐云seo
  • 坡头网站开发公司ps设计网站首页界面
  • 阿里云网站怎么备案域名泸州市住房和城乡建设网站