当前位置: 首页 > news >正文

企业注册网站自己做网站什么网站比较好

企业注册网站,自己做网站什么网站比较好,官方网站查询高考分数,手机软件开发和网站开发爬虫案例—根据四大名著书名抓取并存储为文本文件 诗词名句网:https://www.shicimingju.com 目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容 诗词名句网主页如下图&#x…

爬虫案例—根据四大名著书名抓取并存储为文本文件

诗词名句网:https://www.shicimingju.com

目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容

诗词名句网主页如下图:

Screenshot 2024-01-18 at 10.51.19

今天的案例是抓取古籍板块下的四大名著,如下图:

Screenshot 2024-01-18 at 10.57.29案例源码如下:

import time
import requests
from bs4 import BeautifulSoup
import randomheaders = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', }# 获取响应页面,并返回实例化soup
def get_soup(html_url):res = requests.get(html_url, headers=headers)res.encoding = res.apparent_encodinghtml = res.content.decode()soup = BeautifulSoup(html, 'lxml')return soup# 返回名著的书名及对应的网址字典
def get_book_url(page_url):book_url_dic = {}soup = get_soup(page_url)div_tag = soup.find(class_="card booknark_card")title_lst = div_tag.ul.find_all(name='li')for title in title_lst:book_url_dic[title.a.text.strip('《》')] = 'https://www.shicimingju.com' + title.a['href']return book_url_dic# 输出每一章节内容
def get_chapter_content(chapter_url):chapter_content_lst = []chapter_soup = get_soup(chapter_url)div_chapter = chapter_soup.find(class_='card bookmark-list')chapter_content = div_chapter.find_all('p')for p_content in chapter_content:chapter_content_lst.append(p_content.text)time.sleep(random.randint(1, 3))return chapter_content_lst# 主程序
if __name__ == '__main__':# 古籍板块链接gj_url = 'https://www.shicimingju.com/book'url_dic = get_book_url(gj_url)mz_name = input('请输入四大名著名称: ')mz_url = url_dic[mz_name]soup = get_soup(mz_url)abbr_tag = soup.find(class_="card bookmark-list")book_name = abbr_tag.h1.textf = open(f'{book_name}.txt', 'a', encoding='utf-8')f.write('书名:'+book_name+'\n')print('名著名称:', book_name, end='\n')p_lst = abbr_tag.find_all('p')for p in p_lst:f.write(p.text+'\n')mulu_lst = soup.find_all(class_="book-mulu")book_ul = mulu_lst[0].ulbook_li = book_ul.find_all(name='li')for bl in book_li:print('\t\t', bl.text)chapter_url = 'https://www.shicimingju.com' + bl.a['href']f.write(bl.text+'\n')f.write(''.join(get_chapter_content(chapter_url))+'\n')f.close()

Screenshot 2024-01-18 at 11.12.49

Screenshot 2024-01-18 at 11.14.54

http://www.yayakq.cn/news/263387/

相关文章:

  • 网站建站ddpwordpress编码修改
  • 网站地址栏图标制作信用门户网站建设
  • 内蒙古住房城乡建设厅网站安康市住房和城乡建设局网站
  • 响应式网站的设计趋势组织架构及营销网络怎么填写
  • 做一个公司网站公共资源交易中心属于哪个部门
  • 发布的手机网站是乱码用 可以做网站软件吗
  • 鞋子的网站策划方案模板酒店软装设计公司官网
  • 架设网站 软件wordpress4.9.4 安装
  • 工信部网站备案查询 手机c 用mysql做的网站
  • asp跳转到别的网站seo排名点击软件运营
  • 手机网站建设效果网页qq登录保护怎么关
  • 网站制作哪家最好用家用电脑建设网站
  • 企业网站建设感想做net网站
  • 金华网站建设多少钱中小企业网站建设需要注意什么
  • iis配置wap网站响应式做的好的网站有哪些
  • 怎么给客户推网站建设百度客户端在哪里打开
  • 网站设计制作一般多少钱seo优化提升排名
  • 网站点击率穿衣打扮 wordpress
  • html5浏览器seo技术服务外包公司
  • 中小企业网站建设渠道seo优化技巧
  • 网站开发个人工作室江苏市场监督管理局旗舰店
  • 寻找扬中网站建设在局网站 作风建设
  • 烟台网站建设科技把里面的dede和plugins这2个文件夹覆盖到你的网站根目录
  • 做网站和网站页面设计用html做的网站步骤
  • 网站策划书是什么pc端网站建设相关查阅资料
  • 网站建设维护人员网站集约化建设的总体情况
  • 网站系统维护网络营销的特点主要包括
  • 哈尔滨市延寿建设局网站网站开发视频会议插件
  • 免费的行情网站微信网站模板
  • 这个网站中有网名做会计的吗 了解一下WordPress的文本编辑器