当前位置: 首页 > news >正文

电子商务网站例网站域名空间怎么买

电子商务网站例,网站域名空间怎么买,山西省吕梁市天气,如何运行安装wordpresspython爬取网页图片并下载之GET类型 准备工作 【1】首先需要准备好pycharm,并且保证环境能够正常运行 【2】安装request模块 pip install requestsimport request导入request内置模块 【3】安装lxml模块 pip install lxmlfrom lxml import etree导入lxml.etre…

python爬取网页图片并下载之GET类型

准备工作

【1】首先需要准备好pycharm,并且保证环境能够正常运行

【2】安装request模块

pip install requests

import request导入request内置模块

【3】安装lxml模块

pip install lxml

from lxml import etree导入lxml.etree内置模块

如果导入etree失败的话可以尝试

from lxml import html
etree = html.etree

目标网站

今日的目标是爬取图片信息

网址:[loryx.wiki]([home LoR丨中文百科] (loryx.wiki))

分析网站

image-20231221185852385

该部分是这次要爬取的所有图片内容,首先F12打开网络并且选中ALL,然后Ctrl+R刷新页面

image-20231221191550975

打开最上方加载的文件的Response,发现和页面的源码非常相似,并且编码类型为utf-8

image-20231221192304122

接着点开Headers

可以看到该网页是GET类型,并且状态码是200,URL也和该页面相同

image-20231221191934151

那么接下来就可以用python来模拟request请求了

爬虫代码

其实GET方法在这里data不带进去也行,写在这里是为了更方便理解

import requests
from lxml import etreeurl = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'
data = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/231.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/231.36 Edg/120.1.1.0'
}res = requests.get(url=url, data=data)
res.encoding = 'utf-8'

接下来拿到了request对象后就可以来对元素进行筛选了

首先获取完整的网页源码print(res.text)

打印结果为image-20231221193053517

可以看见没有问题,那么继续用etree进行解析

et = etree.HTML(res.text)

继续分析网页内容

在图片链接处右键进入检查

image-20231221194218391

然后我们就得到了标签页信息,我们将要获取的就是td标签中的col15 leftalign元素中的a标签的href链接信息,于此同时我们还需要对应的内容来作为图片的名称,否则你将会看到一堆乱码的哈希值

这里就用卡牌名称作为图片名,取元素的方法也和图片同理

# 图片链接
src = et.xpath("//td[@class='col15 leftalign']/a/@href")# 图片名称
name = et.xpath("//td[@class='col0 leftalign']/text()")

当前所有采集到的内容都存储在srcname这两个列表中

我们打印src就可以看到这样的图片链接image-20231221194906708

打开后就可以在浏览器中看到图片

image-20231221195013088

该效果说明我们下载图片的原理还是向这个网页发送请求然后再获取返回的结果

图片下载

演示只取9张图片,不然的话可以直接range(len(src))

for i in range(9):with open(f"img/{name[i]}.png", 'wb') as f:f.write(requests.get(src[i]).content)

这里需要注意要用wb,因为写入的是二进制数据

运行程序

image-20231221200120481

OK完工

总结

以上就是python中最基础的爬虫案例,当然实际项目中基本不会有用with open(f"img/{name[i]}.png", 'wb') as f:这种写法,因为效率太低了,本篇文章只是为了以最直观的方式呈现爬虫下载图片的原理

完整代码:

import requests
from lxml import etreeurl = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'
data = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
}res = requests.get(url=url, data=data)
res.encoding = 'utf-8'
et = etree.HTML(res.text)
# print(res.text)
src = et.xpath("//td[@class='col15 leftalign']/a/@href")
name = et.xpath("//td[@class='col0 leftalign']/text()")
for i, index in enumerate(name):name[i] = index.strip()for i in range(9):with open(f"img/{name[i]}.png", 'wb') as f:f.write(requests.get(src[i]).content)
http://www.yayakq.cn/news/370973/

相关文章:

  • 网站程序如何上传福州网站开发cms
  • 手机做无水印短视频网站徐州建设网站的公司
  • 深圳手机网站制作公司兰州装修公司排名前十口碑推荐
  • 网站建设开发案例教程视频北京网站建设dqcx
  • 做ipad的网站尺寸是多少网络维护员每天要干哪些事
  • 网站集约化建设方案目前国内做情趣最好的网站
  • 怎么查看网站建设时间多城市分站站群cms
  • 做网站编辑的感受scratch编程
  • 湖北网站建设平台网站推广线上推广
  • 上海公司网站建设多少钱那个网站域名估价好
  • 网站前台如何做访问量显示前端app开发流程
  • 动漫网站建设意义简单网页html模板
  • 广州专业网站制作百度首页
  • 企业网站托管套餐建一个网站需要什么流程
  • 微信端网站开发模板邮箱地址注册入口
  • 站长工具seo综合查询是什么意思用html做静态网站
  • 微电影分享网站织梦整站源码江苏国家住房和城乡建设部网站
  • 装修网站建设案例跑车网页制作素材
  • 制作公司网站大概多少钱建设网站必须要钱吗
  • 网站建设的必要性制作网页的思路
  • 做网站不给提供ftp广告设计logo标志
  • 做电影网站会违法吗org域名注册条件
  • 做网站周记家在深圳宝安
  • 合肥 做网站的高中男女做那个视频网站
  • 南昌网站建设规划方案网站规划流程
  • 手机建站服务企业门户网站建设精英
  • 做网站做得好的公司f式布局网站
  • 哪里有建设好的网站网站seo优化网站
  • 英文网站模板购物网站后台模板
  • 网站设计素材网站有哪些网络优化需要哪些知识