当前位置: 首页 > news >正文

有什么做礼品的卖家网站在附近找工作

有什么做礼品的卖家网站,在附近找工作,上海网站建设 s,网站服务器怎么做的CrawpSpider和Spider的区别 CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpid…

CrawpSpider和Spider的区别

CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpider可以使用LinkExtractor用正则表达式自动提取链接,而不需要手动编写链接提取代码。
Spider和CrawlSpider都是Scrapy的Spider类的子类。
注意:CrawlSpider是不支持请求传参的!(多个parse函数的参数之间的来回传递)

CrawlSpider使用步骤

  1. 创建一个工程 XXXPro scrapy startproject XXXPro
  2. cd XXXPro
  3. 创建爬虫文件(CrawlSpider):scrapy genspider -t crawl xxx www.xxxx.com
    • 链接提取器LinkExtractor:根据指定的规则(allow)(正则表达式)进行指定链接的提取
    • 规则解析器Rule:将链接提取器提取到的链接进行指定规则(callback)的解析

爬取全页的链接

在这里插入图片描述
我们可以根据每页的链接形式,使用正则表达式来进行提取。
通过使用下面的链接提取器,可以得到所有页面的链接,而且虽然提取到的链接是不全的,CrawlSpider还会自动补全。

    link = LinkExtractor(allow=r"/content/node_21745_")    # 这个链接提取器是用于在页面源码中根据制定规则进行正则匹配的

爬取每个新闻详情页的url

    link_detail = LinkExtractor(allow=r"/content/20")

补充规则解析器

    rules = (Rule(link, callback="parse_item", follow=False),   # #follow=True:可以将链接提取器 继续作用到 连接提取器提取到的链接 所对应的页面中Rule(link_detail, callback="parse_detail", follow=False))

parse解析函数

# 解析新闻标题def parse_item(self, response):# 注意:xpath表达式中不可以出现tbody标签a_list = response.xpath('/html/body/section[2]/div[3]/div[2]/div[1]/div[4]/ul/a')# print(li_list)for a in a_list:title = a.xpath('./li/p/text()').extract_first()item = SunproItem()item['title'] = title# print(" title:", title)yield itemprint(len(a_list))
    # 解析新闻内容def parse_detail(self, response):# print("parse_detail正在执行")content = response.xpath('//*[@id="news_con"]//text()').extract()content = ''.join(content)item = DetailItem()item['content'] = content# print("news content:", content)yield item

pipelines管道类

class SunproPipeline:def process_item(self, item, spider):if item.__class__.__name__ == 'SunproItem':print(item['title'])else:print(item['content'])return item

注意要在setings.py中开启管道类

http://www.yayakq.cn/news/82691/

相关文章:

  • 张店做网站网站计划
  • 网站开发类标书模板oa报表网站开发
  • 做推广网站有什么中国山东建设监理协会网站
  • 推荐做那个的电影网站wordpress网页设定
  • 如何在阿里巴巴上建设公司网站重庆网络公司招聘
  • 教你做兼职的网站企业网站建设方案投标书
  • 淘客怎么用网站做邢台企业网站建设咨询
  • 简单网站建设软件有哪些wordpress主题资讯
  • 高端建设网站宝塔如何搭建网站
  • 请问聊城网站建设网站后台管理系统论文
  • h5可以做网站吗免费网站现在是怎么了
  • 河南企业网官方网站短网址生成接口
  • 做二手车网站需要什么手续费wordpress网站模板
  • 企业电子商城网站建设比wordpress好用
  • 如何查询网站域名企业咨询师资格证
  • 框架做网站指的是网店美工实训报告
  • 做外贸需要什么样的网站自己做一个微信小程序需要多少钱
  • 研艺影楼网站建设做淘宝团购的网站
  • 网络科技公司网站首页企业概况简介
  • 有专门做特产的网站吗龙华三网合一网站建设
  • 如何选择网站建设案例哈尔滨信息网官网
  • 合肥长丰路网站建设官方百度平台
  • 企业网站界面seo技术培训班
  • 培训网站平台怎样做房地产建设网站的意义
  • 合肥网站建设策划方案东营做网站优化哪家好
  • 中投中原建设有限公司官方网站海外推广解决方案
  • 酒店网站建设报告书wordpress xydown插件
  • 做房地产需要做网站吗三网合一网站程序
  • 西安网站制作工作室软件技术就业前景怎么样
  • 湖北省建设工程招标网站上海备案证查询网站