当前位置: 首页 > news >正文

浙江网站制作公司网站设计制作工作室

浙江网站制作公司,网站设计制作工作室,网站推广宜选刺盾云下拉,库存进销存管理软件有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。 用F12看一下网页源代码,对应上图表格内容的部分如下: 使用python和lxml来定位爬取。 首先要安装lxml,如下命令(可以…

有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。

用F12看一下网页源代码,对应上图表格内容的部分如下:

 

使用python和lxml来定位爬取。

首先要安装lxml,如下命令(可以在pycharm项目的Terminal中运行):

pip3 install lxml

实现代码:

from lxml import etree
import requestsurl = 'https://www.example.com'
r = requests.get(url)
result = r.text
html = etree.HTML(result)rows = html.xpath(".//div[@class='table-responsive fpl-list']/table/tbody/tr[position()>0]")proxy_list = []
for row in rows:td_list1 = row.xpath('./td[1]')td_list2 = row.xpath('./td[2]')ip = td_list1[0].text.replace(' ','').replace('\t','').replace('\n','')port = td_list2[0].text.replace(' ','').replace('\t','').replace('\n','')web_proxy = {'ip': ip, 'port': port, 'types': 0, 'protocol': '0', 'country': '0', 'area': '0', 'speed': 100}proxy_list.append(web_proxy)print(proxy_list

说明:

在HTML中,tr、td、th是用于构建表格的核心标签‌:tr(Table Row)定义表格行,td(Table Data)定义标准数据单元格,th(Table Header)定义表头单元格。‌‌

结合上述代码,rows即是获取的表格中的所有行。

然后针对每一行进行操作。从每一行中,定位并获取需要的单元格的文本内容(此行第一列的单元格就是td[1],第二列就是td[2],使用.text获取其文本内容,注意:使用row.xpath获取出的是一个列表,需要加一个[0]来成为单个元素)。

http://www.yayakq.cn/news/295907/

相关文章:

  • 建设网站遇到的问题一个公司如何把网站做好
  • 做视频网站怎么备案搜索引擎优化实训心得
  • pc和移动版网站汕头快速排名
  • 中国机械加工网站网站开发调用别人网站的组件
  • 芜湖北京网站建设软件开发文档规范
  • 企业建设营销网站的基本步骤有哪些软件开发者是什么意思
  • 信贷 网站模板 下载如何找有需求做网站的公司
  • 服务号微网站怎么做的做企业网站所要注意什么
  • 什么网站可以做机票行程单找外贸客户的联系方式软件
  • 做网站所需要的项app制作平台哪家好
  • 怎么给公司做个网站南京网
  • 手机网站客户端家装平面设计主要做什么
  • node.js 做网站桂林象鼻山附近酒店
  • 深圳专业建站公司双线网站
  • django 网站开发案例潍坊专业舞蹈学校
  • 怎么做旅游网站框架360建筑网在哪里
  • 网站建设实验报告手写渗透wordpress
  • 定制头像的网站泰安seo网络公司
  • 镇江网站制作教程汽车网站策划
  • 怎么把网站做10万ipwordpress 怎么安装
  • 汕头百度网站推广简单网页制作代码html
  • 衡水网站建设最新报价做网站前台模板
  • 江门网页模板建站成都市城乡建设厅官方网站
  • 医院网站建设方案策划书wordpress js代码放哪
  • 做视频开头的外国网站网站建设自学视频
  • 个人 网站备案 幕布南通网站排名外包
  • 哈尔滨网站建设论坛北京梦创义网站建设
  • 成都有没有做网站建设的网站建设超链接字体变色代码
  • 怎么在网站后面做链接东莞市专注网站建设平台
  • 简约门户网站源码无锡营销型网站建站