当前位置: 首页 > news >正文

网站正在建设源码福州 建站 软件

网站正在建设源码,福州 建站 软件,装修网站建设优缺点,郑州做网站哪家公司最好创建crawlspider爬虫文件: scrapy genspider -t crawl 爬虫文件名 爬取的域名scrapy genspider -t crawl read https://www.dushu.com/book/1206.htmlLinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接,提取出的链…

创建crawlspider爬虫文件:

scrapy genspider -t crawl 爬虫文件名 爬取的域名scrapy genspider -t crawl read https://www.dushu.com/book/1206.html

LinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接,提取出的链接会自动生成Request请求对象

class ReadSpider(CrawlSpider):name = "read"allowed_domains = ["www.dushu.com"]start_urls = ["https://www.dushu.com/book/1206_1.html"]# LinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接。提取出的链接会自动生成Request请求对象rules = (Rule(LinkExtractor(allow=r"/book/1206_\d+\.html"), callback="parse_item", follow=False),)def parse_item(self, response):name_list = response.xpath('//div[@class="book-info"]//img/@alt')src_list = response.xpath('//div[@class="book-info"]//img/@data-original')for i in range(len(name_list)):name = name_list[i].extract()src = src_list[i].extract()book = ScarpyReadbook41Item(name=name, src=src)yield book

开启管道、
写入文件

class ScarpyReadbook41Pipeline:def open_spider(self, spider):self.fp = open('books.json', 'w', encoding='utf-8')def process_item(self, item, spider):self.fp.write(str(item))return itemdef close_spider(self, spider):self.fp.close()

运行之后发现没有第一页数据
需要在start_urls里加上_1,不然不会读取第一页数据

start_urls = ["https://www.dushu.com/book/1206_1.html"]
http://www.yayakq.cn/news/207009/

相关文章:

  • 济宁网站运营新郑做网站优化
  • 资讯平台网站模板抖音小程序搭建
  • 怎么做免费的公司网站网站怎么做移动图片
  • 北京建网站公司飞沐开发个dapp要多少钱
  • 实业公司网站模板关键词优化难度查询
  • 本人承接网站建设广西建设
  • 做网站有哪些语言wordpress识别pc手机版
  • 农业电商网站建设百度开发者搜索
  • 公司开发个网站建设企业网站支票打印软件
  • 在自己网站上做销售在工商要办什么手续网站建设规划需要考虑
  • 正邦设计广州分公司怎样优化网站案例
  • 北京市规划网站手机网站建设软件
  • 做网站php软件桂林市天气预报
  • 国际贸易电子商务网站建设流程wordpress美化框
  • CQ网站建设wordpress多媒体插件
  • 建设银行网站名称怎么写公众号菜单栏页面模板
  • 网站模板制作教程视频怎么做网页快照
  • 福建省网站建设网站建设禁止性规定
  • 资阳网站seo宝塔为什么要安装Wordpress
  • 站长推广工具wordpress后台筛选
  • 电商网站有哪些类型西安网站seo费用
  • 工程建设招标中心网站做网站的好处在哪里
  • 如何进行电商网站设计北京市建设工程信息网有哪些
  • 怎么制作个人门户网站开发公司介绍
  • 专业制作网站价格陕西建设网成绩查询
  • dw做的上传网站打不开网站备案要拍照
  • 合肥网站建设维护廊坊seo网站排名
  • 如何拿到网站后台密码商城网站建设注意什么
  • eclipse怎么做网站seo全站优化全案例
  • 湘潭网站推广工信部网站 备案时间