当前位置: 首页 > news >正文

南昌做网站开发的公司有哪些国际新闻最新消息今天233

南昌做网站开发的公司有哪些,国际新闻最新消息今天233,微网站开发多少钱,南京最新发布上一节我们对爬虫程序的默认回调函数parse做了改写,提取的数据可以在Scrapy的日志中打印出来了,光打印肯定是不行的,还需要把数据存储,数据可以存到文件,也可以存到数据库,我们一一来看。 存储数据到文件 首先我们看看如何将数据存储到文件,在讲[[【Scrapy】Scrapy教程…

上一节我们对爬虫程序的默认回调函数parse做了改写,提取的数据可以在Scrapy的日志中打印出来了,光打印肯定是不行的,还需要把数据存储,数据可以存到文件,也可以存到数据库,我们一一来看。

存储数据到文件

首先我们看看如何将数据存储到文件,在讲[[【Scrapy】Scrapy教程5——第一个Scrapy项目]]时,我们改写了prase函数,将首页存储到了一个shouye.html文件中,这便是我们的简单的数据存储,但这个存储方式是我们纯手写的代码,存的是整个页面,并非我们想要的数据。
这节主要讲存储数据,我们看下通过Scrapy命令直接存储数据,在这之前我们将parse函数修改下。

def parse(self, response):# 从获取的所有文章中提取链接和标题for article in response.css(".card")[1:]:yield {"title": article.xpath("./a").css("span::text").get(),"link": self.start_urls[0] + article.xpath("./a/@href").get(),}

然后,我们在到命令行中,运行以下命令。

scrapy crawl shouye -o titles.json

上面这条命令会将我们提取的数据存储到titles.json文件中,存储后的效果如下图所示。
在这里插入图片描述

我们会发现,存储的数据没有错,但是被整体存到了一个大的字典中,这不是我想要的结果,我只要数据一行一行的存储下来就好了,我们可以用以下命令。

scrapy crawl shouye -o titles.jsonl

没错,我们换个存储格式,就可以了。
在这里插入图片描述

存储数据到数据库

上面这种方法存储简单的数据可以,对于复杂结构的数据存储,就要引入Items和pipelines了。

Items

我们爬取页面的目标就是将非结构化数据提取为结构化数据,而Item就是Scrapy提供的一个类,用于定义通用输出数据格式的。Scrapy可以将提取的数据,作为Item返回,类似python的键值对。

Item Types

Scrapy通过itemadapter支持字典、Item对象、数据类对象、attrs对象几种Item类型。

  • 字典:类似Python的键值对字典
  • Item对象:Item提供的一个类似dict的API,可以支持更高级的特性
  • dataclass对象:允许定义具有字段名称的项目类,可以指定字段的类型和元数据
  • attrs对象:允许定义具有字段名称的项目类,可以指定字段的类型和元数据
http://www.yayakq.cn/news/363790/

相关文章:

  • 页面网站缓存如何做wordpress w3 total cache 编码错误
  • 网站开发工程师和前端做一个企业网站设计
  • iis网站怎么做域名绑定wordpress吃服务器
  • 北京最新网站备案铜梁集团网站建设
  • 普通网站自豪地使用wordpress
  • 优化网站要怎么做衡阳网站网站建设
  • 男人和女人床上做性视频网站大连工程建设信息网站
  • 校园网站建设资源wordpress 资源下载插件
  • 网页网站制作培训班用jsp做网站有什么好处
  • 南昌网站排名优化价格网站建设中标签导航的特征
  • 网站的域名怎么看对网站设计的建议
  • 彭阳县城乡与住房建设局网站工程公司取名字大全三个字
  • 国外 网站 设计外贸是做什么的
  • 高端网站建设公司价格网站手机版模板
  • dede免费网站模板utf8嘉兴网站推广企业
  • 为什么有网网站打不开怎么回事网页设计工作心得
  • 小学最好的网站建设酒店网站建设案例
  • dedecms网站备份网络科技公司属于什么行业
  • 北京网站建设seo优化阿里网站搭建
  • 流行的网站开发语言域名注册需要多少钱
  • 管理咨询网站建设南昌网站建设的流程
  • 北京网站排名竞价托管哪家公司好
  • wordpress哪个主题适合做网址导航网站建站如何做seo
  • 玉溪住房和城乡建设局网站网站设计的工作内容
  • 杭州网站建设公司服务现在流行的网站开发工具
  • 一级a做爰片免费网站在线国内十大网站建设品牌
  • 哪里有网站建设企业求个没封的网站2022
  • 商标设计网站图wordpress修改默认后台登录链接
  • 众意网站建设zyecn国家工商局官网首页登录入口
  • 企业建网站费用广州海珠区最新通告