当前位置: 首页 > news >正文

衡阳建设学校网站雅安城市建设网站

衡阳建设学校网站,雅安城市建设网站,辽宁网站建设企业定制公司,wordpress ip设置方法Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 安装scrapy pip install scrapy2.5.0 1.新建 Scrapy项目 scrapy startproject mySpider # 项目名为mySpider 2.进入到spiders目录 cd mySpider/mySpider/spiders 3.创建爬虫 scrapy gensp…

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

安装scrapy

pip install scrapy==2.5.0

1.新建 Scrapy项目

scrapy startproject mySpider   # 项目名为mySpider

2.进入到spiders目录

 cd mySpider/mySpider/spiders

3.创建爬虫

 scrapy genspider dgcuAI  ai.dgcu.edu.cn      # 爬虫名为dgcuAI,爬取域为ai.dgcu.edu.cn

 4.制作爬虫

创建爬虫之后,打开dgcuAI.py文件。

引入Selector

from scrapy.selector import Selector

修改start_urls:

start_urls = ['http://ai.dgcu.edu.cn/front/category/2.html']

 修改parse函数:

    def parse(self, response):

        print(response.url)

        selector = Selector(response)

        # # 使用XPath表达式提取信息:

        # 标题: //div[@class="pageList"]/ul/li/a/div[@class="major-content1"]/text()

        # 链接: //div[@class="pageList"]/ul/li/a/@href

        # 日期: //div[@class="pageList"]/ul/li/a/div[@class="major-content2"]/text()

        node_list = selector.xpath("//div[@class='pageList']/ul/li")

        for node in node_list:

            # 文章标题

            title = node.xpath('./a[1]/div[@class="major-content1"]/text()').extract_first()

            # 文章链接

            url = node.xpath('./a[1]/@href').extract_first()

            # 日期

            date = node.xpath('./a[1]/div[@class="major-content2"]/text()').extract_first()

            print("文章标题:", title)

            print("文章链接:",url)

            print("日期:",date)

 5.运行爬虫

 在mySpider/mySpider/文件夹下创建run.py文件,并运行:

from scrapy import cmdline

cmdline.execute("scrapy crawl dgcuAI -s LOG_ENABLED=False".split())

其中“-s LOG_ENABLED=False ”表示不打印日志信息,若代码运行有错误则需要“-s LOG_ENABLED=True ”,这样就能在控制台看到错误信息。

运行结果:

http://www.yayakq.cn/news/110175/

相关文章:

  • wordpress站点设置使用时间做网站用什么系统
  • 做网站流程内容沈阳专业网站建设企业
  • 做企业网站设计与实现医院网站制作设计
  • 怎么弄 一个空间放两个网站 用不同的域名网站建设 域名
  • 教育局网站建设方案重庆网站建设途锦科技
  • 入侵网站被判多少年建立平台的步骤
  • 24小时学会网站建设 pdf加工外包网
  • 酒类产品网站设计中文 wordpress
  • 杭州城市建设网站网站建设有什么品牌
  • 开封旅游网站建设网页推广建设局局长权力大吗
  • 珠海网站制作品牌策划天津装修公司做网站
  • 什么是网站运营推广有哪些网站做的好
  • 网站建设项目管理基本要求wordpress后台美化
  • 免费做快闪网站小学生家长网站建设需求
  • 大同市建设工程质量监督站网站石家庄新闻联播在线看
  • 郑州网站建设网站开发网站的流量是什么意思
  • 网站建设前台与后台最新技术汕头网站推广系统
  • 网站制作公司合肥常州网站建设优质商家
  • 网易云播放器做网站播放网站小编可以在家做吗
  • 江苏网站seo设计中国最大的博客网站
  • 网站图片上传不了是什么原因动漫网站在线免费观看
  • 网站开发行情网站开发的公司
  • 怎么做县城分类信息网站2345网址导航电脑版
  • 大学生网站建设策划书网站做gzip压缩
  • Ul设计网站近期军事新闻事件
  • 国信网络模版网站建设方案相关网站搭建中页面
  • 购物网站开发企业信用信息公示系统网址年检
  • 中交路桥建设有限公司地址招聘seo网站推广
  • wordpress 突然502网络优化器下载
  • wordpress 上传网站吗兰州网站建设搜王道下拉