当前位置: 首页 > news >正文

服装网站模板下载dw如何做网页

服装网站模板下载,dw如何做网页,遵义网嘉科技有限公司,定州网站建设公司python爬虫入门(实践) 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标,查看源码 代码实现 """ 获取博客所有h2标题的路由 """url "http://www.crazyant.net"import re…

python爬虫入门(实践)

一、对目标网站进行分析

在这里插入图片描述
在这里插入图片描述

二、博客爬取

  1. 获取博客所有h2标题的路由

    1. 确定目标,查看源码
      在这里插入图片描述

    2. 代码实现

      """
      获取博客所有h2标题的路由
      """url = "http://www.crazyant.net"import requests
      from bs4 import BeautifulSoup#发送请求,获取页面所有内容
      r = requests.get(url)
      if r.status_code != 200:raise Exception("请求失败") # 抛出异常
      html_doc = r.text# 解析html,获取对应信息
      soup = BeautifulSoup(html_doc,"html.parser")h2_nodes = soup.find_all("h2",class_="entry-title")for h2_node in h2_nodes:link = h2_node.find("a")print(link["href"],link.get_text())
      
  2. 通过标题爬取所有博客文章

    """
    爬取所有博客文章
    """
    import refrom utils import url_manager
    import requests
    from bs4 import BeautifulSouproot_url="http://www.crazyant.net"# 将root_url添加到urls中
    urls = url_manager.UrlManager()
    urls.add_new_url(root_url)# 获取所有页面内容,并保存到文件
    fout = open("craw_all_pages.txt","w",encoding="utf-8")
    while urls.has_new_url():curr_url = urls.get_url()r = requests.get(curr_url,timeout=2)if r.status_code != 200:print("请求失败",curr_url)continuesoup = BeautifulSoup(r.text,"html.parser")title = soup.title.string # 获取标题fout.write('%s\t%s\n' % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print("success: %s, %s, %d"%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links = soup.find_all("a")for link in links:href = link.get("href")if href is None:continuepattern = r"^http://www.crazyant.net/\d+.html$" # 匹配规则,匹配以http://www.crazyant.net/开头,并且以.html结尾的url# 正则匹配, 返回一个匹配对象,如果没有匹配到,返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()
    
  • 运行结果
    在这里插入图片描述
http://www.yayakq.cn/news/344899/

相关文章:

  • 网站建设费计入销售费用的子目天津做网站优化的公司
  • 数据做图网站有哪些wordpress 自定义数据表
  • 表格网站怎么做的手机网站 标题长度
  • 网站呢建设销售方案怎么写
  • 网站域名 安全wordpress编辑导航栏
  • 网站备案信息更改深圳市罗湖区住房和建设局网站
  • 预算有哪些网站做私活wordpress7牛云插件
  • 网站模板怎么使用网站seo入门基础教程
  • 沈阳三好街网站建设永久8x的最新域名
  • 椒江网站建设公司深圳市龙岗区
  • 石家庄正规网站建设公司WordPress如何添加导航栏
  • wordpress修改网站iconwordpress推送百度升级
  • 徐汇网站设计如何设计小程序
  • 网站解析一般什么时候广州网络推广奋
  • 深圳网站推广优化培训网站建设免费加盟代理
  • 建站平台转型网站建设相关的书籍
  • 山东省住房和城乡建设部网站花都有做网站
  • 郑州手机网站推广外包微信群拉人的营销方法
  • 东莞电商公司排名搜索引擎优化方法与技巧
  • 专业做酒店网站wordpress手机上用的
  • wix网站制作网络营销策划书8000字
  • wordpress 301错误桔子seo网
  • 电子商务网站设计流程网站开发架构分类
  • 关于协会网站建设的几点思考大连做网站报价
  • 社交网站wordpress旧版本
  • 东营微信网站制作免费做房产网站有哪些
  • 怎么备案网站做网站挣钱快又多
  • 美食网站怎么做dw手机网页图片
  • 红孩子网站建设包头网站建设哪家好
  • 手机如何建设网站首页网站平台选择