当前位置: 首页 > news >正文

新乡网站关键字优化商品的销售网站总体设计

新乡网站关键字优化,商品的销售网站总体设计,今天时政新闻热点是什么,海口模板建站定制Python 第二阶段 - 爬虫入门 🎯 今日目标 学习什么是 Cookie / Session,为什么要维持登录状态掌握 requests.Session 用法模拟登录一个带登录表单的网站获取登录后的页面内容 📘 学习内容详解 🔐 什么是 Session? …

Python 第二阶段 - 爬虫入门

🎯 今日目标

  • 学习什么是 Cookie / Session,为什么要维持登录状态
  • 掌握 requests.Session 用法
  • 模拟登录一个带登录表单的网站
  • 获取登录后的页面内容

📘 学习内容详解

🔐 什么是 Session?

很多网站内容需要登录后才能访问。登录后,服务器会发给浏览器一个 SessionID(或 Cookie),作为用户身份凭证。

如果你想爬取登录后的页面,就必须“模拟登录”并“保持会话”。

🔁 requests.Session 的作用

使用 requests.Session() 可以:

  • 自动保存 Cookie
  • 在多个请求之间维持登录状态

💻 示例:模拟登录测试网站

我们使用 httpbin.org 模拟登录行为(演示形式):

import requests# 创建一个 session 对象
session = requests.Session()# 构造表单数据(假设是登录表单)
login_data = {"username": "testuser","password": "testpass"
}# 模拟登录请求
login_url = "https://httpbin.org/post"
response = session.post(login_url, data=login_data)print("登录响应内容:")
print(response.json())  # httpbin 会返回你提交的内容# 接着访问其他页面(此时自动带上了登录 Cookie)
another_response = session.get("https://httpbin.org/cookies")
print("\n带 Cookie 的请求结果:")
print(another_response.text)

🎯 模拟实际登录网站(仅测试用途)

有些网站登录逻辑如下:

  • 表单地址:https://example.com/login
  • 提交字段:username=xxx&password=xxx&csrf_token=xxx
  • 需要使用 headers 模拟浏览器
  • 可能还需要验证码(此类需用 Selenium)

🧪 今日练习任务

  1. 使用 requests.Session() 模拟一个简单的表单提交(如 httpbin.org 或本地测试站点)

    import requests# 创建 Session 对象(自动保存 cookie)
    session = requests.Session()# 模拟登录表单数据
    login_data = {"username": "testuser","password": "123456"
    }# 表单提交地址(httpbin.org 用于测试,会返回你提交的所有数据)
    login_url = "https://httpbin.org/post"# 发送 POST 请求
    response = session.post(login_url, data=login_data)# 查看服务器返回的 JSON 数据
    print("✅ 登录请求返回内容:")
    print(response.json())# 模拟登录成功后,再访问一个页面(httpbin 会带上 cookie)
    response2 = session.get("https://httpbin.org/cookies")
    print("\n📦 后续请求中的 Cookie 内容:")
    print(response2.text)
    

    示例输出:

    ✅ 登录请求返回内容:
    {'args': {}, 'data': '', 'files': {}, 'form': {'password': '123456', 'username': 'testuser'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '33', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.31.0', 'X-Amzn-Trace-Id': 'Root=1-684ec172-7f38f51b3f47f06628fc18c7'}, 'json': None, 'origin': '84.17.38.140', 'url': 'https://httpbin.org/post'}📦 后续请求中的 Cookie 内容:
    {"cookies": {}
    }
    
  2. 观察响应中的 cookie、form、headers 内容

  3. 尝试爬取一个你感兴趣的登录后页面(如 CSDN 博客后台、知乎收藏等——可能需要 cookie 手动导入)

    • 打开浏览器访问 https://www.zhihu.com
    • 手动登录你的知乎账户
    • 打开开发者工具(F12)→ Network → 找任意请求
    • 查看 Request Headers,复制 Cookie 字符串(很长那一串)
    • requests 模拟登录后的请求
      import requests# 将你的 Cookie 字符串复制到这里(注意格式)
      cookie_str = 'd_c0="xxxx"; q_c1="xxxx"; z_c0="2|1:xxxx";'# 转换为 dict(你也可以用 browser_cookie3 库自动导入)
      cookies = {}
      for item in cookie_str.split(';'):key, value = item.strip().split('=', 1)cookies[key] = value# 请求登录后才能访问的页面,例如知乎首页
      url = "https://www.zhihu.com/"headers = {"User-Agent": "Mozilla/5.0","Referer": "https://www.zhihu.com/",
      }response = requests.get(url, headers=headers, cookies=cookies)# 打印网页前 500 字符,确认是否登录成功
      print(response.text[:500])
      

🧠 今日总结

  • 学会了 Session 的基本概念
  • 掌握了 requests.Session() 如何模拟登录并抓取数据
  • 为更复杂的登录机制(验证码、JS登录)做准备
http://www.yayakq.cn/news/157176/

相关文章:

  • 请输入您网站的icp备案信息建设部网站安全考核证书查询
  • 网站运营的作用免费源码分享
  • 潮州南桥市场中国建设银行网站国内外网站开发技术
  • 网站的主机选择网页制作与设计专业
  • 海东网站建设公司wordpress侧边栏字体修改
  • 微信淘宝购物券网站是怎么做的佛山制作手机网站
  • 网站设计心得体会手机代理ip海外免费
  • 网站自动站建大学生网络营销策划书模板
  • 阿里云投数亿资源扶持中小网站迁移服务器Wordpress调用搜索
  • 企业网站规划方案软件定制开发服务流程
  • 图片素材网站模板做网站办什么类型营业执照
  • 传统网站设计的缺点建设一个视频网站的成本
  • 河南省建设行业证书查询网站吉林网站建设代理渠道
  • 汕头网站制作网站做教育网站的er图
  • 医疗网站不备案设计企业网站布局考虑的因素
  • 做一网站需要多少钱东莞网站空间
  • 天津红桥网站建设如何创建自己的网址
  • 郑州做网站的专业公司有哪些昨晚广州天河发生事件
  • 栖霞企业网站建设丰台专业网站建设公司
  • 大连企业免费建站网站怎么做切换图片
  • 成都市建设厅官方网站做招聘网站需要什么资质
  • 中小微企业查询网站品牌vi设计公司啊
  • 推荐个做淘宝主图视频的网站专门做旅游攻略的网站有哪些
  • 免费快速网站北京seo公司
  • 外贸网站域名服务商设计师网名叫什么好听
  • 免费企业网站管理系统网站地图 格式
  • 汽车网站名称湛江专业雷剧全集
  • wordpress成品站源码有没有专做游戏脚本的网站
  • 青岛新网站设计公司ppt做视频的模板下载网站有哪些
  • 为什么 要建设网站英迈思网站建设