当前位置: 首页 > news >正文

阿里云机器怎么做网站托管网站

阿里云机器怎么做网站,托管网站,seo搜索引擎优化营销案例,商丘网站建设运营公司本项目纯学习使用。 1 scrapy 代码 爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。 经测试,总计获取 11299条中医药材数据。 import pandas as…

本项目纯学习使用。

1 scrapy 代码

爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。
经测试,总计获取 11299条中医药材数据。

import pandas as pd
import scrapyclass ZhongyaoSpider(scrapy.Spider):name = "zhongyao"start_urls = [f"https://www.zysj.com.cn/zhongyaocai/index__{i}.html" for i in range(1, 27)]def __init__(self, *args, **kwargs):self.data = []def parse(self, response):for li in response.css('div#list-content ul li'):a_tag = li.css('a')title = a_tag.css('::attr(title)').get()href = a_tag.css('::attr(href)').get()if title and href:# 构建完整的详情页 URLdetail_url = response.urljoin(href)yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'title': title})# 解析逻辑def parse_detail(self, response):title = response.meta['title']pinyin = response.css('div.item.pinyin_name_phonetic div.item-content::text').get(default='').strip()alias = response.css('div.item.alias div.item-content p::text').get(default='').strip()english_name = response.css('div.item.english_name div.item-content::text').get(default='').strip()source = response.css('div.item.alias div.item-content p::text').get(default='').strip()# 性味flavor = response.css('div.item.flavor div.item-content p::text').get(default='').strip()functional_indications = response.css('div.item.flavor div.item-content p::text').get(default='').strip()usage = response.css('div.item.usage div.item-content p::text').get(default='').strip()excerpt = response.css('div.item.excerpt div.item-content::text').get(default='').strip()#habitat = response.css('div.item.habitat div.item-content p::text').get(default='').strip()# 出处provenance = response.css('div.item.provenance div.item-content p::text').get(default='').strip()# 性状shape_properties = response.css('div.item.shape_properties div.item-content p::text').get(default='').strip()# 归经attribution = response.css('div.item.attribution div.item-content p::text').get(default='').strip()#  原形态prototype = response.css('div.item.prototype div.item-content p::text').get(default='').strip()# 名家论述discuss = response.css('div.item.discuss div.item-content p::text').get(default='').strip()# 化学成分chemical_composition = response.css('div.item.chemical_composition div.item-content p::text').get(default='').strip()item = {'title': title,'pinyin': pinyin,'alias': alias,'source': source,'english_name': english_name,'habitat': habitat,'flavor': flavor,'functional_indications': functional_indications,'usage': usage,'excerpt': excerpt,'provenance': provenance,'shape_properties': shape_properties,'attribution':  attribution,'prototype': prototype,'discuss': discuss,'chemical_composition': chemical_composition,}self.data.append(item)yield itemdef closed(self, reason):# 当爬虫关闭时,保存数据到 Excel 文件df = pd.DataFrame(self.data)df.to_excel('zhongyao_data.xlsx', index=False)

2 爬取截图

在这里插入图片描述

3 爬取数据截图

在这里插入图片描述

http://www.yayakq.cn/news/185070/

相关文章:

  • w3c验证网站2019年建设什么网站好
  • 用凡科建设网站百度是什么网站
  • php网站开发实例教程 源代码新手建站教程报价单
  • dw做了网站还可以做淘宝详情吗怎么做返利网站
  • 建立个人网站的步骤有哪些网站排名优化服务
  • 祺越网站建设自建网站怎么做推广
  • 建网站电脑版和手机版怎么做深圳网站建设公司联系
  • 印刷行业网站建设北京网络开发公司
  • 汕头哪个公司招聘网页设计seo排名优化哪里好
  • 网站建设如何更加稳定制作社交app软件要多少钱
  • 网站后缀ga企业年度报告公示系统
  • 做基础网站主机要?网络优化初学者难吗
  • 专业手机建站公司网站设计专业建站公司
  • 优惠券怎做网站APP客户端网站建设
  • 长沙一站式网站建设东莞高端网站建设费
  • 如何申请域名做网站wordpress程序 wp
  • wordpress购物网站教程wordpress做一个查找数据库
  • 企业网站用什么开发好-商业推广网站没被收录
  • 兰州网站推广网络推广方案有哪些
  • 泗洪县建设局网站做美食网站首页怎么做
  • 枣庄网站设计wordpress批量文章插件
  • 万全网站建设wl17581seo优化代运营
  • 凡科建站做的网站收录慢吗建筑安装公司
  • 青海网站建设与维护企业app怎么做
  • 网站规划的主要任务是什么建设企业网站需要哪些东西
  • SOHO英文网站制作学校网站的系统建设方式
  • 电器网站建设目的wordpress主题 说说
  • 有教做翻糖的网站吗易营宝智能建站
  • 怎么做像小刀网一样的网站wordpress域名+文件
  • 网站开发的中期工作wordpress软件推荐