当前位置: 首页 > news >正文

网站开发需要哪些资料视频制作软件下载安装

网站开发需要哪些资料,视频制作软件下载安装,阿里巴巴新网站怎么做运营,怎样做网站漂浮python爬虫-bs4 目录 python爬虫-bs4说明安装导入 基础用法解析对象获取文本Tag对象获取HTML中的标签内容find参数获取标签属性获取所有标签获取标签名嵌套获取子节点和父节点 说明 BeautifulSoup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数…

python爬虫-bs4

目录

  • python爬虫-bs4
    • 说明
      • 安装
      • 导入
    • 基础用法
      • 解析对象
      • 获取文本
      • Tag对象
        • 获取HTML中的标签内容
        • find参数
        • 获取标签属性
        • 获取所有标签
        • 获取标签名
        • 嵌套获取
        • 子节点和父节点

说明

BeautifulSoup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据

在爬虫项目中经常会遇到不规范、及其复杂的HTML代码

BeautifulSoup4提供了强大的方法来遍历文档的节点以及根据各种条件搜索和过滤文档中的元素。你可以使用CSS选择器、正则表达式等灵活的方式来定位和提取所需的数据

安装

pip install BeautiifulSoup4

导入

from bs4 import BeautifulSoup

基础用法

解析对象

soup = BeautifulSoup('目标数据','解析器')

目前有三种主流解析器

  • html.parser
  • lxml(推荐)
  • html5lib

获取文本

获取文本的方法两种方式textcontents

contents

from bs4 import BeautifulSoupdata = """
<h1>Welcome to BeautifulSoup Practice</h1><div class="article"><h2>Article Title</h2><p>This is a paragraph of text for practicing BeautifulSoup.</p><a href="https://www.example.com">Link to Example Website</a>
"""
soup = BeautifulSoup(data, 'lxml')
print(soup.contents)
# 输出:
"""
[<html><body><h1>Welcome to BeautifulSoup Practice</h1>
<div class="article">
<h2>Article Title</h2>
<p>This is a paragraph of text for practicing BeautifulSoup.</p>
<a href="https://www.example.com">Link to Example Website</a>
</div></body></html>]
"""

text

print(soup.text)
"""
Welcome to BeautifulSoup PracticeArticle Title
This is a paragraph of text for practicing BeautifulSoup.
Link to Example Website
"""

Tag对象

获取HTML中的标签内容

比如<p> <div>

示例:

print(soup.h2)
# <h2>Article Title</h2>print(soup.h2.text)
# Article Title
find参数

获取class要加下划线,因为在python中它属于关键字,除了class还可以换成任意属性名

data = """
<h1>Welcome to BeautifulSoup Practice</h1><div class="article"><p>This is a paragraph of text for practicing BeautifulSoup.</p></div><div class="ex2"><p>This is a abcd.</p></div>
"""
soup = BeautifulSoup(data, 'lxml')
print(soup.find('div', class_='article'))
获取标签属性
data = ' <p id = "apple">This is a paragraph of text for practicing BeautifulSoup.</p>'
soup = BeautifulSoup(data, 'lxml')
tag = soup.find('p')
print(tag.get('id'))
# apple
获取所有标签
soup = BeautifulSoup(data, 'lxml')
print(soup.find_all('p'))
# [<p>This is a paragraph of text for practicing BeautifulSoup.</p>, <p>This is a abcd.</p>]print(len(soup.find_all('p')))
# 2

括号为空则获取全部标签

获取标签名
print(soup.div.name)
# div
嵌套获取

示例HTML如下

html = '''
<div class="article"><h2>Article Title</h2><p>This is a paragraph of text for practicing BeautifulSoup.</p><p>This is a abcd.</p><a href="https://www.example.com">Link to Example Website</a>
</div>
'''

目标:获取div下的所有p标签内容

print(soup.find('div', class_='article').find_all('p'))
子节点和父节点
soup = BeautifulSoup(data, 'lxml')
# 遍历获取所有父节点
for item in soup.p.parents:print(item)# 遍历获取所有子节点
for i in soup.p.children:print(soup.p.children)
http://www.yayakq.cn/news/766552/

相关文章:

  • 网站建设一般用到的语言国内Wordpress博客平台
  • 网站开发原型模板wordpress米课
  • 泰州网站设计咨询广州市品牌网站建设服务机构
  • 系部网站建设标准怎样重启网站服务器
  • 南昌大型网站建设公司中国摄影在线官网
  • 网站建设的主流架构有哪些网站建设与管理试题一
  • 新特网架公司秦皇岛seo优化
  • 建网站备案好麻烦wordpress nginx伪静态配置
  • 新农村建设管理网站做离心开关的企业的网站
  • 国外最火的网站网站修改域名服务器
  • 网站开发需要的技术的流程有域名和空间怎么做网站
  • ppt设计接单seo做什么行业比较好
  • 大连制作公司网站成都做一个小企业网站需要多少钱
  • 共享的网站备案视频号视频怎么下载
  • 景点介绍网站开发设计网络营销推广目标
  • 建设通官方网站下载e航国外 网站有做验证码吗
  • 西安网站设计费用移动互联网开发方向包含哪些课程
  • 易读网站建设网站建设 中企动力嘉兴0573
  • 包头怎样做网站app制作企业
  • 网站差异做网站设计师的感想
  • 网站建设中的html页面奉贤网站开发
  • 中国海洋大学站群网站建设生产建设网站基坑开挖深度
  • 中小型企业网站优化价格辽宁住房城乡建设部官方网站
  • 建立公司微信平台 网站平台做棋牌网站要什么源码
  • 做书的封面网站娱乐网站策划书
  • 扶风高端企业网站建设个人简历表
  • 专业网站建站企业杭州设计门户网站
  • 查询网站服务器地址浙江宝业建设集团网站
  • 嘉兴自助建站模板天津市建设网官网
  • jsp网站开发网上订餐系统wordpress google字体本地