当前位置: 首页 > news >正文

企业网站的主要类型优秀设计作品赏析

企业网站的主要类型,优秀设计作品赏析,网站建设实训心得体会300字,WordPress扫码发现了一个使用Selenium的find_element模块,快速获取文字和表格的方法,很实在,以后爬网的时候,就不用beautifulSoup 和 pandas的read_html 混起来用了! 文字部分:实现网络节点下,某个节点下的其…

发现了一个使用Selenium的find_element模块,快速获取文字和表格的方法,很实在,以后爬网的时候,就不用beautifulSoup 和 pandas的read_html 混起来用了!

文字部分:实现网络节点下,某个节点下的其他子孙节点的文字的拼接
表格部分:实现获取表格,并转为列表格式

话不多说,码上:

1. 获取文字的部分

如果是简单的文字,直接用text就完成了:

xpath_name='//div[@class="example"]'
driver.find_element(By.XPATH,xpath_name).text

但是有时候,有些文字就会分成很多个节点,要把这些文字拼起来就很麻烦,例如:

在这里插入图片描述

有时候在网络节点里,一会是span 标签,一会是a标签,一会是p标签。

就算是用beautifulSoup 来解也很难搞得齐全,用find_element的xpath 来定位也很难搞,也是要考虑层级结构的问题的。

这里可以用上 find_element + 遍历后代节点的方法:

在上面的例子中,我只需要找到id=content 的第一层节点,然后找到该节点下的所有子节点和子孙节点下的text,这样就可以把他们拼凑起来了:

1.1 获取所有子孙节点的写法:

如果你想要从特定的父元素开始获取所有子节点,你可以结合使用标签选择器和.//

children_elements = parent_element.find_elements(By.XPATH, './/p')

在这个例子中,'.//p'是一个XPath表达式,它意味着“选择当前节点下所有的<p>标签,包括所有层级的后代节点”。

1.2 如果只是获取子节点的话,则是:

children_elements = parent_element.find_elements(By.XPATH, './*')

其中,XPath中的'.'代表当前节点,'/child::* '代表选择当前节点的所有直接子节点。

完整写法:

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建WebDriver实例,这里以Chrome为例
driver = webdriver.Chrome()# 打开目标网页
driver.get("你的目标网页URL")sleep(random.uniform(2, 3))#获取文字部分
#获取第一层节点,父亲节点
parent_element=driver.find_element(By.ID ,'content')
#获取所有
children_elements = parent_element.find_elements(By.XPATH, './/p')
new_content=''# 遍历所有找到的<p>标签的后代节点,并打印它们的标签名和文本
for child in children_elements:#print(f"Tag: {child.tag_name}, Text: {child.text}")new_content=new_content+child.textprint('最后实现的文字:',new_content)

在这里插入图片描述

2. 获取表格的部分

获取表格的逻辑是:

1.使用find_element方法定位到表格元素。
2. 使用get_attribute('outerHTML')打印表格内容(可选) 这个方法打印的是含有表格的源码,而非表格的内容
3. for循环遍历表格行和单元格,打印出每一行的单元格文本,以列表的形式显示。

完整逻辑:

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建WebDriver实例
driver = webdriver.Chrome()# 打开目标网页
driver.get("http://example.com/some_page_with_tables.html")# 定位表格元素
table = driver.find_element(By.TAG_NAME, 'table')# 方法1:打印整个表格的HTML
print(table.get_attribute('outerHTML'))# 方法2:遍历并打印表格的每一行和单元格内容
rows = table.find_elements(By.TAG_NAME, 'tr')
for row in rows:cells = row.find_elements(By.TAG_NAME, 'td')cell_texts = [cell.text for cell in cells]print(cell_texts)# 关闭浏览器
driver.quit()

在这里插入图片描述

http://www.yayakq.cn/news/483719/

相关文章:

  • 网站和网页的设计方法微信小程序公众平台官网
  • 上海建设局网站 招聘wordpress标签是什么
  • 网站内容规划流程广州企业官网建设
  • 西安网站关键词排名免费人脉推广
  • 公司要做个网站吗营销策划方案的步骤
  • 文化传媒公司网站建设青岛做模板网站的公司
  • 建设部网站拆除资质建立网站后怎么维护
  • 做 淘宝客最大的网站是叫什么名字下载网址
  • 郑州品牌网站建设广东建设信息公开网站
  • 西安网站改版的公司网龙网络公司官网
  • seo做的比较好的网站的几个特征一站式做网站服务
  • 文化传播公司网站备案推广注册app拿佣金
  • itc 做市场分析的网站wordpress添加菜单分类目录是灰的
  • 阿里云网站安装域名备案进度查询
  • 电子商务网站模板免费下载4399页游网站
  • 营销型网站免费模板下载七牛链接wordpress
  • 深圳做网站哪个好晚上正能量免费下载软件安全
  • 怎么选择锦州网站建设邢台网站制作公司
  • 做网站一年能赚多少钱营销的三个基本概念是什么
  • 泰安网站建设企业精美网站制作公司
  • php企业网站源码下载网站策划书包含的内容
  • 赚钱做任务的网站有哪些电子商务都包括什么
  • 营口旅游网站开发网站优化建设公司
  • 电商网站开发人员Godaddy如何建设网站
  • 网站收录提交入口wordpress二维码手工
  • 企业网站设计步骤建设银行有招投标网站吗
  • 可信赖的宜昌网站建设范县网站建设公司
  • 国内常见的博客网站网站可以自己建立吗
  • 网站描述标签长沙哪里做网站
  • 专业摄影网站推荐廊坊做网站的企业哪家好