当前位置: 首页 > news >正文

毕业设计网页制作咖啡网站图片网站建设项目需求说明书

毕业设计网页制作咖啡网站图片,网站建设项目需求说明书,公司域名更改 网站怎么做提示,网络游戏开发基础爬虫之常见的反扒 cookies 一般用requests直接请求网址的时候有时候可能会遇到反扒措施,这时候可以考虑一下加上user-agent伪装成浏览器;也可能有登录限制,这时候cookies就有用处了 浏览器中的cookie是保存我们的账号数据和访问记录&#…

爬虫之常见的反扒

cookies

一般用requests直接请求网址的时候有时候可能会遇到反扒措施,这时候可以考虑一下加上user-agent伪装成浏览器;也可能有登录限制,这时候cookies就有用处了

浏览器中的cookie是保存我们的账号数据和访问记录,在爬取的过程中加上cookie可以增加爬取数据的成功几率

获取cookies有两种方式,一种是requests 获取cookies ;一种是selenium获取cookies

1、requests获取cookies

自动登录原理:人工在浏览器上完成登录操作,获取登录之后的cookie信息,再通过代码发送请求的时候携带cookies信息

requests 获取cookies步骤:

浏览器打开网址——浏览器控制台——network——all——headers——cookie ——将cookies的值复制

import requests
headers = {'cookie':'.....'
}
resp=requests.get('https://www.zhihu.com/',headers=headers)
print(resp.text)

2、selenium获取cookies

获取自动登录网站的cookies

· 打开需要完成自动登录的网站(需要获取cookie的网站)

· 给足够长的时候让人工完成自动登录并且人工刷新出登录之后的页面

强调:一定要吧第一个页面刷新出登之后的转态

· 获取登录之后的cookie并且将获取到的cookie保存到本地文件

from selenium.webdriver import Chrome
from json import dumps
b = Chrome()
# 1. 打开需要完成自动登录的网站(需要获取cookie的网站)
b.get('https://www.taobao.com/')
# 2. 给足够长的时间让人工完成自动登录并且人工刷新出登录后的页面
# 强调:一定要把第一个页面刷新出登录之后的状态
input('已经完成登录:')
# 3. 获取登录后的cookie并且将获取到的cookie保存到本地文件
cookies = b.get_cookies()
print(cookies)
with open('file3/taobao.txt', 'w', encoding='utf-8') as f:f.write(dumps(cookies))

3、selenium使用cookies

· 打开需要自动登录的网站

· 添加cookies

· 重新打开需要登录的网页

from selenium.webdriver import Chrome
from json import loads
b = Chrome()
# 1. 打开需要自动登录网页
b.get('https://www.taobao.com/')
# 2. 添加cookie
with open('file3/taobao.txt', encoding='utf-8') as f:content = f.read()cookies = loads(content)
for x in cookies:b.add_cookie(x)
# 3. 重新打开需要登录的网页
b.get('https://www.taobao.com/')

代理ip

在爬取网站的过程中,因为频繁访问该网站,会出现ip被封情况,但是又必须获取该数据,可以用代理ip来访问该网站;分为两种情况,requests和selenium

1、requests 使用代理ip

获取代理ip的流程------省略

用法如下:

import requests
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}
# 两种proxies方式选择其一
# proxies = {
#     'http':'.....',
#     'https':'.....'
# }
proxies = {'http':'http://119.7.147.173:4531','https':'http://119.7.147.173:4531'
}
response=requests.get('https://movie.douban.com/top250',headers=headers,proxies=proxies)
print(response.text)

实际用法:

import requests
from time import sleep
def get_ip():url='获取代理ip的地址'while True:response=requests.get(url)if response.text[0]=='{':print('提取失败')continuesleep(1)return response.text
def get_douban():headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}ip=get_ip()proxies = {'http': ip,'https':ip}response=requests.get('https://movie.douban.com/top250',headers=headers, proxies=proxies)print(response)
if __name__ == '__main__':get_douban()

2、selenium使用代理ip

from selenium.webdriver import Chrome,ChromeOptions
# 1、添加配置对象
options = ChromeOptions()
# 2、添加配置
options.add_argument('--proxy-server=http://代理ip')
# 3、通过指定配置创建浏览器对象
b=Chrome(options=options)
b.get(url)  #  url是我们需要访问的网址
http://www.yayakq.cn/news/41520/

相关文章:

  • 泰州网站建设案例网站建设的方向和任务
  • 网站建设 工作计划域名访问网站啥意思
  • 百度seo怎么做网站内容优化wordpress 会话
  • 网站开发人员是什么网站框架代码
  • 企业网站管理系统排名网络服务机构
  • 做微博长图的网站南京seo排名扣费
  • 长治做百度网站一年多少钱dw做网站怎么跳转
  • 做网站需要哪些人员服务器与网站吗
  • 如何做网站优化并快速提高权重企业营销网站建设公司哪家好
  • 知名wordpress架构网站一般做网站要多少钱
  • 马鞍山专业网站制作公司毕业设计做网站论文
  • 天津做网站的网络公司php发布wordpress接口
  • 长宁深圳网站建设公司wordpress nginx ssl
  • 最新网站备案哪些外国购物网站可以做
  • 惠州网站建设wordpress不能启动怎么解决
  • 做网站就找喇叭人深圳全网整合营销
  • 网站平台是怎么做财务的网站收录的页面被k出来
  • 网站建设就业方向莱芜话题莱芜在线牛泉
  • 怎样做才能让自己的网站公司网页制作免费
  • 我想网站建设前端兼职一个静态页面报价
  • 做好网站建设总结建网站用什么浏览器
  • 网站建设中如何兼容所有浏览器平湖手机网站建设
  • 互联网网站有哪些uniapp商城app整套源码
  • 网站建设可以自学吗安义网站建设
  • 做公众号网站有哪些网站开发ui
  • 网站建设的需求文档网站开发与管理所对应的职位及岗位
  • phpcms电影网站开发沈阳高端网页
  • 定制网站建设功能报价表模板合伙做网站怎么分配股权
  • 免费创建网站带咨询的公司网络推广方法
  • 北京高端网站建设飞沐怎么学做电子商务网站