当前位置: 首页 > news >正文

ps网站设计与制作无锡网站建设系统

ps网站设计与制作,无锡网站建设系统,电脑培训班一般要学多久,做自媒体你不得不知道的视频网站爬虫案例—根据四大名著书名抓取并存储为文本文件 诗词名句网:https://www.shicimingju.com 目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容 诗词名句网主页如下图&#x…

爬虫案例—根据四大名著书名抓取并存储为文本文件

诗词名句网:https://www.shicimingju.com

目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容

诗词名句网主页如下图:

Screenshot 2024-01-18 at 10.51.19

今天的案例是抓取古籍板块下的四大名著,如下图:

Screenshot 2024-01-18 at 10.57.29案例源码如下:

import time
import requests
from bs4 import BeautifulSoup
import randomheaders = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', }# 获取响应页面,并返回实例化soup
def get_soup(html_url):res = requests.get(html_url, headers=headers)res.encoding = res.apparent_encodinghtml = res.content.decode()soup = BeautifulSoup(html, 'lxml')return soup# 返回名著的书名及对应的网址字典
def get_book_url(page_url):book_url_dic = {}soup = get_soup(page_url)div_tag = soup.find(class_="card booknark_card")title_lst = div_tag.ul.find_all(name='li')for title in title_lst:book_url_dic[title.a.text.strip('《》')] = 'https://www.shicimingju.com' + title.a['href']return book_url_dic# 输出每一章节内容
def get_chapter_content(chapter_url):chapter_content_lst = []chapter_soup = get_soup(chapter_url)div_chapter = chapter_soup.find(class_='card bookmark-list')chapter_content = div_chapter.find_all('p')for p_content in chapter_content:chapter_content_lst.append(p_content.text)time.sleep(random.randint(1, 3))return chapter_content_lst# 主程序
if __name__ == '__main__':# 古籍板块链接gj_url = 'https://www.shicimingju.com/book'url_dic = get_book_url(gj_url)mz_name = input('请输入四大名著名称: ')mz_url = url_dic[mz_name]soup = get_soup(mz_url)abbr_tag = soup.find(class_="card bookmark-list")book_name = abbr_tag.h1.textf = open(f'{book_name}.txt', 'a', encoding='utf-8')f.write('书名:'+book_name+'\n')print('名著名称:', book_name, end='\n')p_lst = abbr_tag.find_all('p')for p in p_lst:f.write(p.text+'\n')mulu_lst = soup.find_all(class_="book-mulu")book_ul = mulu_lst[0].ulbook_li = book_ul.find_all(name='li')for bl in book_li:print('\t\t', bl.text)chapter_url = 'https://www.shicimingju.com' + bl.a['href']f.write(bl.text+'\n')f.write(''.join(get_chapter_content(chapter_url))+'\n')f.close()

Screenshot 2024-01-18 at 11.12.49

Screenshot 2024-01-18 at 11.14.54

http://www.yayakq.cn/news/761833/

相关文章:

  • 音乐在线制作网站网站建设源码
  • 湖北宜昌网苏州市网站优化
  • 广东建设工程网站wordpress购物网站教程
  • 公司网站建设入什么费用网站开发说明
  • app和微网站的对比分析鹤壁建设网站推广公司电话
  • 公司网站备案怎么做wordpress4.7不支持tag
  • 各大网站注册网站系统修改
  • 有口碑的模板网站建设成都进入搜索热度前五
  • 设计教程网站推荐优质的seo快速排名优化
  • 如何给自己做的网站加上域名网站建设预算表格
  • 小学学校网站建设方案163网站源码
  • 张家港建设局官方网站wordpress屏蔽字体
  • 宁波专业网站推广平台咨询做网站流程内容
  • 塘厦镇做网站购物网站宣传方案
  • 酒店网站制作策划做竞价的网站有利于优化吗
  • 个人网站建设可行性分析报告自助服务器网站建设
  • 网站设计与制作专业大学生网站开发总结报告
  • 吴忠网站设计公司用空间做网站如何做好安全
  • 河北邢台企业做网站高端网约车有哪些平台
  • 遵义做网站的公司如何自创app软件
  • 网站建设模板系统手机怎么制作公众号
  • 网站里面那些工作是做晚上兼职的购物网站 wordpress 英文模板
  • 广州网站设计与制作公司跨境电商网站建设方案
  • 绍兴cms建站系统建设一个最普通网站要多少钱
  • 企业请别人做网站服务专业的公司网站设计
  • 国外好的网站空间吴中公司网站建设找哪家
  • 有没有那个的网站公司主页设计图片
  • 网站保持排名网站地图 设计
  • 网站制作属于什么科目前端工程师招聘
  • 中文建网站超级外链发布工具