当前位置: 首页 > news >正文

为某一企业规划网络促销方案网站关键词如何优化上首页

为某一企业规划网络促销方案,网站关键词如何优化上首页,20个优秀微信小程序,广东网站建设案例CrawpSpider和Spider的区别 CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpid…

CrawpSpider和Spider的区别

CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpider可以使用LinkExtractor用正则表达式自动提取链接,而不需要手动编写链接提取代码。
Spider和CrawlSpider都是Scrapy的Spider类的子类。
注意:CrawlSpider是不支持请求传参的!(多个parse函数的参数之间的来回传递)

CrawlSpider使用步骤

  1. 创建一个工程 XXXPro scrapy startproject XXXPro
  2. cd XXXPro
  3. 创建爬虫文件(CrawlSpider):scrapy genspider -t crawl xxx www.xxxx.com
    • 链接提取器LinkExtractor:根据指定的规则(allow)(正则表达式)进行指定链接的提取
    • 规则解析器Rule:将链接提取器提取到的链接进行指定规则(callback)的解析

爬取全页的链接

在这里插入图片描述
我们可以根据每页的链接形式,使用正则表达式来进行提取。
通过使用下面的链接提取器,可以得到所有页面的链接,而且虽然提取到的链接是不全的,CrawlSpider还会自动补全。

    link = LinkExtractor(allow=r"/content/node_21745_")    # 这个链接提取器是用于在页面源码中根据制定规则进行正则匹配的

爬取每个新闻详情页的url

    link_detail = LinkExtractor(allow=r"/content/20")

补充规则解析器

    rules = (Rule(link, callback="parse_item", follow=False),   # #follow=True:可以将链接提取器 继续作用到 连接提取器提取到的链接 所对应的页面中Rule(link_detail, callback="parse_detail", follow=False))

parse解析函数

# 解析新闻标题def parse_item(self, response):# 注意:xpath表达式中不可以出现tbody标签a_list = response.xpath('/html/body/section[2]/div[3]/div[2]/div[1]/div[4]/ul/a')# print(li_list)for a in a_list:title = a.xpath('./li/p/text()').extract_first()item = SunproItem()item['title'] = title# print(" title:", title)yield itemprint(len(a_list))
    # 解析新闻内容def parse_detail(self, response):# print("parse_detail正在执行")content = response.xpath('//*[@id="news_con"]//text()').extract()content = ''.join(content)item = DetailItem()item['content'] = content# print("news content:", content)yield item

pipelines管道类

class SunproPipeline:def process_item(self, item, spider):if item.__class__.__name__ == 'SunproItem':print(item['title'])else:print(item['content'])return item

注意要在setings.py中开启管道类

http://www.yayakq.cn/news/901009/

相关文章:

  • 大连网站推广招聘wordpress发邮件
  • 网站制作论文范文网站建设方案书人员资金安排
  • 上海兼职网站制作找公司开发网站
  • 专业 网站设计公司旅游网页模板图片
  • 网站开发 承接北京做网站好的网站建设公司
  • 网站建设设备湖州建设公司网站
  • 汕头网站建设找千素网展厅设计多少钱一平米
  • 上海最好的网站是什么wordpress主页大小
  • 广州建设交易中心网站专门做蛋糕面包的网站
  • 网站新闻编辑怎么做网页界面设计和网页设计的差异表现在哪些方面
  • 青岛网站制作辰星辰做品牌形象网站
  • 百度站长工具网站机房建设方案
  • 做外贸网站多久更新html网页设计代码教程
  • 房产o2o网站建设jquery网站开发实例
  • 代做施组 方案的网站网站建设出现乱码是怎么回事
  • 找装修公司网站网页设计要学所有软件吗
  • 展示型网站多少钱小程序微商城定制开发
  • 地方性手机平台微网站qq登录网页版登录入口官网
  • wordpress防盗图杭州网站建设seo
  • 推广话术青岛seo网站建设
  • 长基建站网络服务公司经营范围
  • 达州大亚网站建设wordpress图片描述
  • 未备案的网站十堰做网站的公司
  • 可视化建站网站源码美工需要的网站
  • 深圳网站建设公司有哪些内容网站没有index.html
  • 济南网站建设平台山东网站建设和游戏开发的公司
  • 优化营商环境 提升服务效能成熟的网站怎么做seo推广
  • 设计网络品牌营销方案思路电商关键词排名优化怎么做?
  • 男人和女人做哪个网站企业手机网站建设教程
  • 闲置服务器做网站挣钱织梦网站制作教程