当前位置: 首页 > news >正文

做脚本从网站引流响应式网站跟一般网站的区别

做脚本从网站引流,响应式网站跟一般网站的区别,网站开发人员的工资,做导购网站目录 安装requests1. 抓取搜狗搜索内容 requests.get2. 抓取百度翻译数据 requests.post3. 豆瓣电影喜剧榜首爬取4. 关于请求头和关闭request连接总结 欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏,持续更新中 安装requests …

目录

    • 安装requests
    • 1. 抓取搜狗搜索内容 requests.get
    • 2. 抓取百度翻译数据 requests.post
    • 3. 豆瓣电影喜剧榜首爬取
    • 4. 关于请求头和关闭request连接
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

安装requests

直接安装
pip install requests
使用国内源安装
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

1. 抓取搜狗搜索内容 requests.get

import requests
query = input("输入你要搜索的内容:")url = f'https://www.sogou.com/web?query={query}'# 写一个 Mozilla的请求头参数
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}resp = requests.get(url, headers=headers)  # 模拟 Mozilla 浏览器访问网页print(resp)# 返回响应结果 状态码
print(resp.text)  # 拿到页面源代码

在这里插入图片描述


2. 抓取百度翻译数据 requests.post

https://fanyi.baidu.com/

在这里插入图片描述
在这里插入图片描述
由此可知,我们的请求方式是post,请求url是post的地址https://fanyi.baidu.com/sug
在这里插入图片描述
在这里插入图片描述

观察一下我们的formdata,在我们逐渐输入apple的过程中,分别post请求,带有kw参数为“a” “ap” “app” “appl” "apple"的五次请求。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
总结:请求地址https://fanyi.baidu.com/sug,请求方式post,请求带有参数kw

url = "https://fanyi.baidu.com/sug"s = input("请输入你要翻译的英文单词:")
dat = {"kw": s
}# 发送post请求, 发送的数据必须放在字典中, 通过data参数进行传递
resp = requests.post(url, data=dat)
print(resp.json())  # 将服务器返回的内容直接处理成json()  => dict

在这里插入图片描述
采用逐字逐字地输入搜索关键词,多次搜索的方式,可以快速寻找得到我们需要的请求地址。
post请求的参数一般是formdata。


3. 豆瓣电影喜剧榜首爬取

https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

在这里插入图片描述
请求方式get 得到了请求的url
在这里插入图片描述
查看请求的参数
在这里插入图片描述

import requestsurl = "https://movie.douban.com/j/chart/top_list"# 重新封装参数
param = {"type": "24","interval_id": "100:90","action": "","start": 0,"limit": 20,
}headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}resp = requests.get(url=url, params=param, headers=headers)print(resp.json())

在这里插入图片描述

get请求的参数一般是query String。

4. 关于请求头和关闭request连接

服务器在爬虫中是可以知道访问网页的是爬虫还是浏览器,通过我们的请求头判断。<Response [418]> 表示服务器的反爬机制拒绝了爬虫

请求后,如果不需要这个request连接需要close关闭,request默认的keep alive是保持的。如果不关闭,会导致同时多个端口爬取目标网页,可能会对网站的负载带来压力(一般情况下不会,因为人家会先把你封掉)

import requestsurl = "https://movie.douban.com/j/chart/top_list"# 重新封装参数
param = {"type": "24","interval_id": "100:90","action": "","start": 0,"limit": 20,
}headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}resp = requests.get(url=url, params=param) #试试不使用请求头的后果? 提示服务器检测到了python爬虫,无法返回信息
print(resp)#<Response [418]> 表示服务器的反爬机制拒绝了爬虫
resp.close()#关闭连接
resp = requests.get(url=url, params=param, headers=headers)
print(resp)
print(resp.json())
resp.close()#关闭连接

在这里插入图片描述


总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』


http://www.yayakq.cn/news/718887/

相关文章:

  • 郑州高端网站开发合肥营销网站建设
  • 初创公司 建网站网站建设 sheji021
  • 凡科模板建站国家工信部网站备案
  • c 能用来做网站吗百度seo排名优化助手
  • 唐山展望网站建设建设新网站征求意见
  • 吉野家网站谁做的焦作网站建设策划
  • 怎样用jsp做网站 新手教程做网站和做公众号
  • 包头建设局网站南昌做网站kaiu
  • 网站被墙什么意思句容网页定制
  • 地方门户网站开发月嫂的个人简历网站模板
  • php视频网站怎么做建立网站需要准备的材料
  • 电商网站后台管理系统网站的网络设计公司
  • 网站seo网络优化东莞seo优化指南
  • 建设网站网址关于古风的网站建设项目
  • 钓鱼网站在线生成商丘住房和城乡建设网站
  • 网站建设同行友情链接单页网站 挣钱
  • 网站设计与制作平台网页升级未成年人自觉离开
  • 怎样制作图片网站外包岗位为什么不能去
  • 网站建设技术包括哪些方面十大永久免费服务器ip
  • jsp网站开发实例与发布聚合搜索引擎入口
  • 网站推广途径和要点有哪些集团网站建设调研报告
  • 网站联系方式连接怎么做自助网站建设费用
  • 湘潭培训网站建设小制作手工废物利用
  • 网站实名审核中心个人简历word免费模板
  • 北京做网站s网络营销的推广方式都有哪些
  • 商务网站建设调研不用付费就可以看亏亏的app
  • 网站功能模块结构图古风ppt模板免费下载
  • 建设网站跟服务器得关系私人可以买服务器吗
  • flashfxp上传网站模板建设银行 网站
  • 生产备案号怎么查询网站免费空间禁止做网络验证