当前位置: 首页 > news >正文

有关宠物方面的网站建设方案正规做网站

有关宠物方面的网站建设方案,正规做网站,广州越秀网站制作,水果网页设计代码python爬虫 以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除 闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅 爬虫是什么: 爬取网页上的文字,图片,视频,音频 自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫…

python爬虫

以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除

闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅

爬虫是什么:
爬取网页上的文字,图片,视频,音频
自动化操作浏览器,比如填写表单,打卡,提高工作效率
爬虫的注意事项:
爬虫前阅读robots.txt
注意遵守相关法律规定
反爬:防止爬虫程序对网站数据就行爬取
反反爬:破解网站中的反爬机制,获取相关数据
什么是HTTP协议:
HTTP协议:HyperText Transfer Protocol,超文本传输协议,发布和接收HTML的协议,服务器端口号:80端口
HTTPS协议:HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号:443

我们平时输入网址时不需要手动输入端口号,浏览器会自动识别,例如下图,CSDN使用的是HTTPS协议,我们可以手动输入:443,按下回车,仍可访问网页

在这里插入图片描述

输入错误的端口号,会加载失败,例如我们输入:80,会显示响应无效

在这里插入图片描述

什么是URL:
URL:Uniform Resource Locator,统一资源定位符
scheme://host:port/path/?query-string=xxx#anchor
scheme:访问的协议,常见的协议:http,https,ftp
host:主机名,域名,比如www.taobao.com
port:端口号,默认80或443
path:查找路径,sz.58.com/chuzu ,这里的chuzu就是path
query-string:查询字符串,www.baidu.com/s?wd=python,后面的wd=python就是查询字符串
anchor:锚点,前端用作页面定位用的,现在一些前后端分离项目,也用锚点来做导航
常见请求方法:

Requests Method:HTTP协议定义了8种请求方法,最常用的四种请求方法:GET, POST, PUT, DELETE,

剩下四种不常用的请求方法:HEAD、‌OPTIONS、‌TRACE和CONNECT,下面介绍一下get请求和post请求

get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源长生任何影响的时候会使用get请求
post请求:向服务器发送数据(登录),上传文件.会对服务器资源产生影响的时候使用post请求
如何查看请求方式

打开浏览器,进行网页搜索,单击鼠标右键,选择最下方的"检查"

在这里插入图片描述

①选择Network

②刷新网页

③选择第一个文件,点击后就可以查看请求方法是“GET"

在这里插入图片描述

登录界面通常会产生"POST"请求,随便输入账号试一试,显示的是”POST“请求
在这里插入图片描述

请求头参数:
User-Agent:浏览器名称,网络爬虫中经常使用到,请求一个网页时,服务器通过这个参数就可以知道是哪种服务器发送的
通过爬虫发送的请求,User-Agent是Python,为了避免反爬,通常设置为一些浏览器的值来伪装爬虫Referer:表明当前这个请求从哪个url过来的,对于反爬中,如果不是从指定页面过来的,那么就不做相关的响应Cookie:http协议是无状态的,一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人,因此用cookie来做标识,一般想要做登录后才能访问的网站,那么就需要发送cookie信息

在Network中的headers中可以查看User-Agent,Referer和Cookie

在这里插入图片描述

在这里插入图片描述

状态响应码:
状态响应码:Response Code
200:请求正常,服务器正常的返回数据
301:永久重定向,访问www.jingdong.com的时候会重定向到www.jd.com
302:临时重定向,访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面
400:请求的url在服务器找不到,即请求url错误
403:服务器拒绝访问,权限不够,或者是被反爬了
500:服务器内部错误,可能是服务器出现bug了,或者宕机了

状态响应码的详解,请看这篇文章:https://blog.csdn.net/2202_75922690/article/details/137112746

爬虫小尝试:
request网页采集

需要在pycharm中安装requests模块

#request网页采集
import requests
keyword=input("请输入搜索关键词:")#指定url
url=f'https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd={keyword}'
#header要在自己电脑浏览器中找,不是用别人的代码
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}#网络请求,获得响应
reponse=requests.get(url=url,headers=header)
print(reponse.text)
#写入文件中,在本地找到然后打开就是网页
with open(keyword+'.html','w',encoding='utf-8') as f:f.write(reponse.text)print(f'已下载...{keyword}')

在这里插入图片描述

打开保存的文件,在浏览器中打开,如图:

在这里插入图片描述

post请求爬取翻译

需要用到的模块:import requests,import pprint

在这里插入图片描述

这是动态加载的,当我们输入查询词汇时,发送的是post请求,传回来数据,由于是post请求,需要找到ajax数据,因此要点击Fetch/XHR进行查找
在这里插入图片描述

输入单词anchor,进行查找,注意到sug有好几个,点击第一个sug,发现单词是’a’,点击第二个sug,发现单词是’an’,第三个sug是’anc’,一直到最后一个sug是’anchor’,我们可以发现我们想要找的数据极有可能是在这里面,点击它的Headers,可以查找Request URL,这是我们要请求的URL

在这里插入图片描述

在这里插入图片描述

查看Payload的数据是’kw:anchor’,而Preview里面的数据有anchor,由此我们发现通过数据’kw:anchor’发送post请求就可以拿到包含anchor的数据

import pprint
import requests#导入包
import os
keyword=input('请输入要查询的词汇(输入空格退出):')
url='https://fanyi.baidu.com/sug'
header={'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}
data={'kw': keyword
}
while keyword!=' ':res = requests.post(url=url, headers=header, data=data)if res.json()['data']==list( ):print('抱歉,没有您要查询的结果,请重新输入')else:pprint.pprint(res.json()['data'][0]['v'])keyword = input('请输入要查询的词汇(输入空格退出):')data = {'kw': keyword}
os.system('pause')

最终运行结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输入正确的单词,可以查出意思,输入错误的单词,并不能查到结果,根据程序返回没有查询结果,这样我们的一份小词典软件算是完成了😀

再次声明,以上内容仅供学习交流,请勿用作其他用途

http://www.yayakq.cn/news/798516/

相关文章:

  • 购物网站网页模板网站建站制作
  • 网站建设预算表样本杭州互联网网站定制公司
  • 怎么免费创建自己的网站濮阳网站建设电话
  • 如何在网站找做贸易的客户佛山网站建设制作公司
  • 东莞毛织厂家东莞网站建设wordpress 所有标签
  • 校园网站建设与管理特殊字体生成器
  • 编辑网站教程注册网站查询系统
  • 永州内部网站建设公司网站开发设计的地域分析
  • 免费奖励代码网站重庆教育建设有限公司网站首页
  • 安徽省建设厅执业资格注册中心网站深圳设计公司取名
  • 用html做班级网站游戏网站建设收费明细
  • 外汇直播网站建设开发西山区建设局网站
  • 建站之星网站成品分离王野天的照片
  • 自己做网站什么网站比较好英文网站如何做
  • 南通市住房城乡建设局网站网站域名备案需要多长时间
  • 创建网站的准备哪家做网站比较好
  • 这几年做那个网站能致富网站推广公司就去柚米
  • 东晓南门户网站制作青岛房产网链家
  • 广东建设信息网站首页给客户建设网站税率
  • 网站底部备案号html5建一个网站
  • 网站页面设计招聘nike diy定制网站
  • 杭州pc网站开发公司有哪些广汉手机网站设计
  • 做期货都看那些网站免费婚纱摄影网站模板
  • 做金融的网站有哪些球鞋定制软件
  • 福建网站开发物流网络优化
  • 网站页面统计代码是什么意思godaddy做网站
  • 成品网站w灬源码伊甸3m8u有的网站在浏览器打不开怎么办
  • 琼海网站建设公司网站 必须有的功能
  • 网站建设估价wordpress插件安装
  • 衡阳网站备案设计网站公司 都赞湖南岚鸿案例10