当前位置: 首页 > news >正文

长沙网站推广公司哪家好做简历哪个网站比较好

长沙网站推广公司哪家好,做简历哪个网站比较好,文化传媒有限公司网站建设,wordpress后台403目标 在实际开发过程中,我们所需要的数据往往需要通过多个页面的数据汇总得到,通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看,实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及…

目标

        在实际开发过程中,我们所需要的数据往往需要通过多个页面的数据汇总得到,通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看,实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。


版本

        Scrapy 2.12.0


实战

第一步:搭建Scrapy框架。略过,如果不会搭建的通过可以看我之前的Scrapy入门文章。

第二步:通过打开目标网页,查看网页代码,我们可以的到手游排行榜的基础信息,这里我们只获取标题。

import scrapyclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()print(alt)

第三步:进入二级页面,获取描述信息。此时日志打印可以看到,单个游戏的信息并没有组合起来。

import scrapyclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()print(alt)# 二级页面的urlinfo_url = a.xpath("./@href").get()print(f'二级页面的url是:{info_url}')meta = {"alt": alt}yield scrapy.Request(url=info_url, callback=self.parse_info)def parse_info(self, response):p_list = response.xpath("//div[@class='content']//p")for p in p_list:content=p.xpath("string(.)").get()print(content)

第四步:组合item数据。scrapy.Request方法中的meta参数很重要,它实现了深度爬取。比如:在爬取多层级页面时,使用 meta 参数传递父页面的信息到子页面。

import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()# 二级页面的urlinfo_url = a.xpath("./@href").get()meta = {"alt": alt}yield scrapy.Request(url=info_url, callback=self.parse_info,meta=meta)def parse_info(self, response):p_list = response.xpath("//div[@class='content']//p")print("==============start================")alt = response.meta["alt"]print(alt)content=""for p in p_list:content=content+"\n"+p.xpath("string(.)").get()print(content)

第五步:创建item属性。

class YezizhuItem(scrapy.Item):alt = scrapy.Field()content = scrapy.Field()

第六步:传递item属性值,并将item对象传递给管道。

import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()# 二级页面的urlinfo_url = a.xpath("./@href").get()meta = {"alt": alt}yield scrapy.Request(url=info_url, callback=self.parse_info,meta=meta)def parse_info(self, response):p_list = response.xpath("//div[@class='content']//p")print("==============start================")alt = response.meta["alt"]print(alt)content=""for p in p_list:content=content+"\n"+p.xpath("string(.)").get()print(content)top_content=YezizhuItem(alt=alt, content=content)yield top_content

第七步:在settings.py文件中开启管道。

ITEM_PIPELINES = {"yezizhu.pipelines.YezizhuPipeline": 300,
}

第八步:在管道中设置下载数据并启动项目。

import jsonclass YezizhuPipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp = open("C:\\Users\\Administrator\\Desktop\\test\\a.json", "w", encoding="utf-8")self.fp.write("[")def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + ",\n"self.fp.write(line)return item# 在爬虫文件执行之后再执行的方法def close_spider(self, spider):# 删除最后一个多余的逗号,并关闭 JSON 数组self.fp.seek(self.fp.tell() - 3, 0)self.fp.write("\n]")self.fp.close()

http://www.yayakq.cn/news/755524/

相关文章:

  • 第一ppt模板网站网站都有什么费用
  • 濮阳做公司网站联赛积分榜排名
  • 唐山seo设计网站sem培训学校
  • 网站建设要注意哪些事情用于网站建设的费用怎么备注
  • 如何做新闻类网站营销网站建设哪个平台好
  • 徐州网站制作功能刘涛现在哪个网站做直播
  • 做网站到底需要什么相册 wordpress
  • 用什么软件快速做网站创龙企业方案解决
  • 爬闪数媒 网站建设购物网站排名前十名
  • 免费推广公司的网站广州商城网站建设
  • 云南个旧建设局网站兰州传诚网络科技有限公司
  • 网站制作上网商务网站设计特色
  • 青海中小企业网站建设微信小程序入口登录
  • 百度不收录手机网站吗白羊女做网站
  • 怎么用dw建设自己的网站wordpress模版使用
  • 网站数据模板郑州网站建设q.479185700棒
  • 网站建设价格差异多少北京排名seo
  • 初中毕业学网站开发工程师新沂市网站建设
  • 做网站电脑配置要求个高吗搜索引擎优化是指
  • 珠海横琴天聚建设工程有限公司网站做网站的公司利润率是多少
  • 湟中网站建设六安商城网站建设地址
  • dw如何在网站做弹窗wordpress 相册 外链
  • 网站开发入门书公司网站是否必须做可信认证
  • 用代码怎么做网站seo建站优化价格表
  • 盂县在线这个网站是谁做的物流托运
  • 网站宣传的方法有哪些wordpress 多用户插件
  • 手机上怎么自己做网站flash同视频做网站
  • 网站流量提升南平建设集团网站
  • 商城网站开发视频教程网站排名怎么做
  • 如何搭建网站教程视频重庆做网站公司哪家比较好