当前位置: 首页 > news >正文

泉州服装电商网站建设比较大气的企业网站

泉州服装电商网站建设,比较大气的企业网站,做标签的网站,百度移动网站排名案例需求: 1.爬取该新闻网站——(网易新闻)的数据,包括标题和链接 2.爬取所有数据(翻页参数) 3.利用jsonpath解析数据 分析: 该网站属于异步加载网站——直接网页中拿不到,需要…

案例需求:

1.爬取该新闻网站——(网易新闻)的数据,包括标题和链接

2.爬取所有数据(翻页参数)

3.利用jsonpath解析数据

分析:

该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取

可以看到第一页请求网址

https://news.163.com/special/cm_yaowen20200213/?callback=data_callback

6a92f0e00544494d8c21cf6b292dd5b6.png

第二页请求网址

https://news.163.com/special/cm_yaowen20200213_02/?callback=data_callback

4dc35985765e4390b31a2f426e9401c3.png

第五页(最后一页)请求网址:

https://news.163.com/special/cm_yaowen20200213_05/?callback=data_callback

2b51c098461745cd9e30bd5993d62358.png

所以翻页代码如下:

首页地址为第一页地址

for i in range(2,6):print('==========', '当前是第{}页'.format(i))page_url = 'https://news.163.com/special/cm_yaowen20200213_0{}/?callback=data_callback'.format(i)

利用josnpath解析数据

cd754152e4124f5d8cae70ca625e3d5b.png

因为该网页不是常规的josn源码数据,所以需要进行一些处理

text_data=data.split('data_callback(')[1]
# print(text_data)
text_data1 = text_data.split(')')[0]
# print(text_data1)
json_data = json.loads(text_data1)
title = jsonpath(json_data,'$..title')
url = jsonpath(json_data,'$..docurl')

处理解析数据

for i,j in zip(title,url):print(i)print(j)print('=======================================')

示例代码:

import requests
from jsonpath import jsonpath
import json
def get_data(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}r = requests.get(url,headers=headers)# print(r.text)return r.text# print(r.text)# print(r.json())
def parse_data(data):text_data=data.split('data_callback(')[1]# print(text_data)text_data1 = text_data.split(')')[0]# print(text_data1)json_data = json.loads(text_data1)title = jsonpath(json_data,'$..title')url = jsonpath(json_data,'$..docurl')for i,j in zip(title,url):print(i)print(j)print('=======================================')# print(title)# print(url)
if __name__ == '__main__':url = "https://news.163.com/special/cm_yaowen20200213/?callback=data_callback "# h = get_data()# parse_data(h)for i in range(2,6):print('==========', '当前是第{}页'.format(i))page_url = 'https://news.163.com/special/cm_yaowen20200213_0{}/?callback=data_callback'.format(i)h = get_data(page_url)parse_data(h)

6fe1a5bc51994e42a2d68a1c2185b90f.png

 

http://www.yayakq.cn/news/354726/

相关文章:

  • wdcp 无法访问此网站亚马逊电商网站
  • 昆明网站制作在线网站建设概
  • o2o网站建设技术湖北省建设局网站首页
  • 网站域名到期怎么续费php wordpress单本小说网站源码+采集
  • 素材搜集网站网站建设优劣势分析
  • 兰州快速seo整站优化招商页面 菜单 wordpress
  • 网站建设 三乐电子商务网站APP
  • 咖啡店网站模板邮箱注册网站
  • 揭阳网站制作收录网站源码
  • 哈尔滨学校网站建设关于室内设计的网站有哪些
  • 个人购物网站怎么备案跑步机 东莞网站建设
  • 做外贸一般去什么网站找客户如何做推广麦当劳的网站
  • c程序设计课程网站建设论文网站推广外链怎么做
  • 网站备案幕布照片自动点击器怎么用
  • 网站开发 入门教程网站管理与建设试题
  • 蓝色风格网站软文营销的概念
  • 硬件开发语言有哪些做网站推广用优化还是竞价
  • 企业网站建设流程赣州人才网暑假工
  • 西安长安区网站优化地址福建泉州网站建设公司哪家好
  • 温州建设网站制作南京哪公司建设网站
  • 在线解压网站怎么做网站播放器
  • html5 网站logodede英文网站
  • 做网站的介绍免费货源在线永久
  • 网站品质企业网站域名注册
  • ui最好的网站作业帮小程序入口
  • 阳区城市规划建设局网站关键词上首页的有效方法
  • 网站建设和seo的工作好不好心悦会员免做卡网站
  • 徐州做企业网站旅游网站开发的目的和意义
  • 南宁网站关键词推广点赞排行 wordpress 主题
  • 网站制作字体电商网站的开发形式