当前位置: 首页 > news >正文

做网站的分工网站建设管理教程

做网站的分工,网站建设管理教程,制作企业官网,注册装修装饰公司需要多少钱通过输入搜索的关键字,和搜索页数范围,爬出指定文本内内容并存入到txt文档。代码逐行讲解。 使用re、res、BeautifulSoup包读取,代码已测,可以运行。txt文档内容不乱码。 import re import requests from bs4 import BeautifulS…

通过输入搜索的关键字,和搜索页数范围,爬出指定文本内内容并存入到txt文档。代码逐行讲解。

使用re、res、BeautifulSoup包读取,代码已测,可以运行。txt文档内容不乱码。

import re
import requests
from bs4 import BeautifulSouptitles = []                                                             #存放文档标题
urls = []                                                               #存放每个文档链接keyword = input("请输入想要查找的关键字:")                              
pagenum = input("请输入想要查找的页数:")                                        
txt_name = keyword + ":前" + pagenum + "页内容.txt"                        with open(txt_name,'w',encoding='utf-8') as f:                             # 创建txt文件f.write(txt_name + '\r')                                               # 将文件名写入f.close()# 每页内容单独爬取
for i in range(1, int(pagenum)+1):                               html = "http://www.ofweek.com/newquery.action?keywords="+keyword+"&type=1&pagenum=" + str(i)         # 根据关键词和页数生成链接resp = requests.get(html)                             # get获取数据,访问拼接后的url                                    resp.encoding = 'gb18030'                             # 读取中文时不会出现乱码content = resp.text                  # 拿到网站的数据,捕获到的网页内容给content变量# html文件解析,解析响应的文件内容,html.text 是 HTML 文档的源代码,# 'html.parser' 是解析器,用于指定如何解析 HTML 文档bs = BeautifulSoup(content,'html.parser')#每个标题都存在类名为no-pic的li标签里面for news in bs.select('div.zx-tl'): url = news.select('a')[0]['href']                     # 提取文章链接urls.append(url) title = news.select('a')[0].text                      # 提取文章标题titles.append(title)for i in range(len(urls)):                                    # 遍历每篇文章的链接resp = requests.get(urls[i])resp.encoding='gb18030'content = resp.textbs = BeautifulSoup(content,'html.parser')#文章的内容是存在类名为artical-content的div块里面page_content = bs.select('div.artical-content')[0].textwith open(txt_name,'a',encoding='utf-8') as f:            # 写入txt文件f.write("\n"+titles[i]+page_content)f.close()print("文件保存成功!")

http://www.yayakq.cn/news/414731/

相关文章:

  • 网站开发创业杭州住房和城乡建设局网站
  • 网站建设英语词汇服务网站排名咨询
  • 有什么网站是做兼职的学生个人网页设计作品
  • 做网站横幅的图片做网站建设很赚钱吗
  • 网站图片制作怎么查看网站是否降权
  • 郑州知名做网站公司上海网站建设技巧
  • 佛山有那几家做网站塘沽企业网站建设
  • 做网站收费gta5购买房产网站正在建设
  • 新乡企业网站排名优化广告宣传册设计
  • 学校网站建设电话什么是淘宝seo
  • 做网站除了域名还要买什么网站建设好后怎么制作网页
  • 免费的建筑设计网站扬中网站建设流程
  • 网站title优化网页设计个人简历
  • html5个性个人网站餐饮设计网站建设
  • 石家庄企业网站网页设计深圳网站建设技术
  • 免费自助建站哪个平台好广州哪里能看海
  • 一键建站公司移动端网站建设方案
  • 邯郸网站制作设计字体 安装到wordpress
  • 奢侈品网站设计哈尔滨公司网页制作
  • 四川网站制作成都wordpress镜像存储
  • 视频网站seo怎么做公司发布网站需要备案
  • 广州网站设计营销公司搜狗推广登陆
  • 城市建设鹤岗市网站北京工程建设信息网官网
  • 用网站模板做新网站百度aipage智能建站系统
  • 做网站建设的怎么赢利html个人网站完整代码
  • 网站调用字体山东关键词优化联系电话
  • 企业网站模板免费版互联网产品推广方案范文
  • 中国工程建设协会网站wordpress媒体库
  • 学校网站建设说明万表网
  • wordpress加印章插件十大seo免费软件