当前位置: 首页 > news >正文

沈阳网站推广¥做下拉去118cr起名字2023免费八字起名

沈阳网站推广¥做下拉去118cr,起名字2023免费八字起名,wordpress企业模板破解,wordpress进销存目录 前言 第一大难题——找到网站入口 曲线救国 模拟搜索 第二大难题——登录 提一嘴 登录cookie获取 第一种 第二种 第四大难题——无法使用导出的cookie 原因 解决办法 最后 出现小问题 总结 下一篇博客(大部分代码实现) 前言 本章讲理…

目录

前言

第一大难题——找到网站入口

曲线救国

 模拟搜索

第二大难题——登录

提一嘴

登录cookie获取

第一种

第二种

 第四大难题——无法使用导出的cookie

 原因

解决办法

最后

出现小问题

总结

下一篇博客(大部分代码实现)


前言

本章讲理论,后面一节讲代码

拿来练练手的,练练selenium包,实战一下

(本来想拿来练手的,没想到他喵的有挺多防爬的,直接开局就困难难度我靠,凸(艹皿艹 ))

找到可以爬取的网站

第一大难题——找到网站入口

但是咸鱼官方的网站已经关闭了(开局就不利)

闲鱼.淘宝二手 - 轻松卖闲置,放心淘二手闲鱼.淘宝二手是一个社区化的二手闲置交易市场,不仅支持各种同城及线上的担保交易,更安全,同时还有最专业的放心购二手商家,让你轻松在这买卖二手闲置。https://goofish.com/

 GG

曲线救国

但是后面发现可以通过淘宝手机版网页版的入口直接进入咸鱼网页版的入口(反正都是爬取怎么进的不重要啦!!!)

链接放着里了,怎么进别问我了

淘宝淘宝网 - 亚洲较大的网上交易平台,提供各类服饰、美容、家居、数码、话费/点卡充值… 数亿优质商品,同时提供担保交易(先收货后付款)等安全交易保障服务,并由商家提供退货承诺、破损补寄等消费者保障服务,让你安心享受网上购物乐趣!https://main.m.taobao.com/index.html

 好了第一大难题(找到网页版入口解决了)

 模拟搜索

接下来就是利用python的selenium包模拟点击

右键搜索款点击检查就可以定位到该元素的xpath的路径(新版的selenium有许多不同的用法我会在下一章中进行代码实现,这一章主要讲解理论

 然后在python代码中输入你要搜索的文字内容再回车即可

第二大难题——登录

在这一个咸鱼网页版中,你必须要登录才可以

 这样你就要先登录才可以访问网页

最大难题——登录界面滑块验证

提一嘴

在这个登录页面中,登录页面是iframe内嵌入其中的页面的

所以你无法直接定位到登录框(我搞了好久反应过来,真的离谱!!)

登录cookie获取

所以你有两种选择

第一种

直接在python中打开登录页面进入登录页面然后登录直接用selenium库中的get_cookie获取cookie并保存

登录https://passport.goofish.com/mini_login.htm?ttid=h5%40iframe&redirectType=iframeRedirect&returnUrl=%2F%2Fh5.m.goofish.com%2Fapp%2Fvip%2Fh5-webapp%2Flib-login-message.html%3Forigin%3Dhttps%253A%252F%252Fh5.m.goofish.com&appName=xianyu&appEntrance=web&isMobile=true想法相对来说不这么绕,但是遗憾的是我无法登录(因为登录有滑块验证,我是几乎过不了的,手动都不行)

第二种

在正常网页中登入之后用浏览器插件提取出来

我用的是cookie editor 

在网页版中正常登录可以过滑块验证

之后用插件复制出json文件,并且进行粘贴

 第四大难题——无法使用导出的cookie

使用代码导入是报错

 assert cookie_dict[‘sameSite‘] in [‘Strict‘, ‘Lax‘] AssertionError()

 原因

提取出来的cookie中samesite的值不为strict以及lax两种中的一种,他就会报错

解决办法

只需要在json字典中把samesite的值全部改为Strict即可

最后

然后添加cookie然后刷新界面就可以发现搜索结果出来了

出现小问题

由于然后短时间内多次请求依旧会有阴间的滑块验证,所以我推荐设置好后半小时爬取一次即可

总结

这一次实战经历真的让我遇到了selenium许多奇奇怪怪的反爬手段,也是让我可以大幅度提升自己实战经验的一个经历,前前后后排bug,绕反爬,这一个项目打了整整两天。累die

下一篇博客(大部分代码实现)

用python来爬取某鱼的商品信息(2/2)_木木em哈哈的博客-CSDN博客首先要说的是这个通过python不如通过app抓包来的稳定页面中你登录的cookie的失效时间是不确定的,所以你可能需要经常更新cookie(看个人情况)无法频繁(比如5分钟一次)搜索,否则会跳滑块验证,或者你有多个账号也可以搞(大概也就这个流程)写出来的代码只是提取出来网页源代码——其实都提取出网页源代码了,使用就只有一个筛选了(csdn上有大把的优质博主和大佬教你通过源代码过滤有用的信息)当然如果需要的话我可以再水一篇博客。https://blog.csdn.net/mumuemhaha/article/details/132260466?spm=1001.2014.3001.5501

http://www.yayakq.cn/news/459771/

相关文章:

  • 58同城网站建设目的西宁吧 百度贴吧
  • 织梦的网站数据还原怎么做网站开发搭建合同范本
  • 哈尔滨网站建设招聘应用商店免费下载
  • 免费正能量网站下载ww自己创建的网站怎么做流量
  • 马关县住房和城乡建设局网站网站快速推广排名技巧
  • seo怎么做优化方案wordpress 数据库优化
  • 政和县建设局网站公告live2d wordpress
  • 摄影网站设计代码wordpress 众筹中文
  • 网站定制 动易深圳品牌策划公司排行
  • 个人建设电影网站备案介绍旅游美食的网站模板免费下载
  • 郑州五合一网站建设统计网络网站建设的目的
  • 我想自己做的知道网站青岛快速建站模板
  • 2019做什么类型网站软件开发网站模板
  • wordpress建英文网站h5开发用什么工具
  • 专业制作网站公司吗改变网站的域名空间
  • 怎么做网站底部备案号flask网站开发
  • 专门做甜点的视频网站网站建设推广ppt模板
  • 水产养殖畜禽饲料类网站前端模板环保网站建设维护情况报告
  • 建的网站经常打不开菠菜源码怎么做网站
  • 山东淄博网站建设的公司二手车 东莞网站建设
  • 深圳 网站 传播企业网站建设设置那些栏目
  • 油金地 做网站wordpress小程序改造
  • 淘宝优惠劵网站怎么做触屏网站
  • 营销型网站的基础建设关键词指数查询工具
  • 清远做网站的有哪些电商平台门户网站建设的重要性
  • 服装企业官方网站专业网站建设模块维护
  • 网站开发思维导图郑州地方网络推广网站
  • 广州网站运营专业乐云seo公司网站内容模块布局
  • 电商网站开发与运营无锡通告最新
  • 美容加盟的网站建设十大博客网站