当前位置: 首页 > news >正文

贵阳做网站方舟网络二手车网站模版

贵阳做网站方舟网络,二手车网站模版,seo顾问服务福建,外语不精通可以做国外网站吗爬虫 前言代码效果 简单的爬取图片 前言 这几天打算整理与迁移一下博客。因为 CSDN 的 Markdown 编辑器很好用 ,所以全部文章与相关图片都保存在 CSDN。而且 CSDN 支持一键导出自己的文章为 markdown 文件。但导出的文件中图片的连接依旧是 url 连接。为了方便将图…

爬虫

  • 前言
  • 代码
  • 效果


简单的爬取图片

前言

这几天打算整理与迁移一下博客。因为 CSDN 的 Markdown 编辑器很好用 ,所以全部文章与相关图片都保存在 CSDN。而且 CSDN 支持一键导出自己的文章为 markdown 文件。但导出的文件中图片的连接依旧是 url 连接。为了方便将图片保存到本地,在这里保存一下爬虫代码。

只要修改正则匹配代码,同样适用于博客园爬取。

代码

为了提高效率,该脚本将从保存的本地 markdown 文件读取图片链接。当然脚本中也保留了爬取某个页面所有图片的函数。

脚本名:spider.py

import urllib.request 
import urllib.parse
import sys
import os
import re def open_url(url):'''用于网页爬取。这里不采用这个函数'''req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')# 访问url,并将页面的二进制数据赋值给 pagepage = urllib.request.urlopen(req)# 将page中的内容转换为utf-8编码html = page.read().decode('utf-8')return htmldef read_file(file):print('\n正在读取文件...')with open(file, 'rb') as my_file:content = my_file.read()content = content.decode('utf-8')print('已读取文件.')return contentdef get_img(content, file_path):# 正则匹配图片链接# p=r'<img src="([^"]+\.png)"'  # 可用于网页爬取p=r'https://img-blog\.csdnimg\.cn/[\w\-/]+\.(?:png|jpg|jpeg)'#返回正则表达式在字符串中所有匹配结果的列表print('\n正在读取图片链接...')img_list=re.findall(p, content)list_len = str(len(img_list))print('已读取图片链接.\n')for img_url in img_list:print(img_url)print('\n共 ' + list_len + ' 条数据')# 图片保存位置。如果文件夹不存在则创建save_path = file_path + '/assets/'if not os.path.exists(save_path):os.makedirs(save_path)print('\n正在保存图片...\n')num = 0  # 用于记录进度for each in img_list:#以 / 为分隔符,-1返回最后一个值photo_name=each.split("/")[-1]#访问 each,并将页面的二进制数据赋值给photophoto=urllib .request .urlopen(each)w=photo .read()# f=open(save_path + photo_name + '.png', 'wb')f=open(save_path + photo_name, 'wb')f.write(w)f.close()# 展示进度print(num % 10, end="")if (num + 1) % 10 == 0 and num != 0:print('    进度: ' + str(num + 1) + '/' + list_len)sys.stdout.flush()  # 刷新输出缓冲num += 1print('\n\n完成!\n')if __name__=='__main__':if len(sys.argv) != 2:print("\nUsage:   python spider.py <file>")print('example: python spider.py "F:\\T\\test.md"')sys.exit()file = str(sys.argv[1])file_name = os.path.basename(file)file_path = os.path.dirname(file)print('\nfile_name: ' + file_name)print('file_path: ' + file_path)# 读取文件内容content = read_file(file)# 爬取图片get_img(content, file_path)

效果

在这里插入图片描述

在这里插入图片描述


别后相思人似月,云间水上到层城。

——《明月夜留别》(唐)李冶

http://www.yayakq.cn/news/520493/

相关文章:

  • 兴化建设局网站哪个网站可以做市场调研报告
  • wordpress网站图片迁移在线呼叫网页版
  • 杭州网站公司响水做网站哪家公司好
  • 网页设计与网站建设长春电商网站建设哪家好
  • 备案时的网站建设方案书php网站视频代码
  • 网站添加地图江浦网站建设
  • 做网站的费用如何入账微信申请小程序流程
  • 金坛网站开发交通局网站建设方案策划书
  • 怎么做资源网站做黑枸杞的公司网站
  • 网页设计制作网站开发建设新手建站基础入门到精通视频教程品牌网是什么
  • 中山做网站哪家公司好邯郸做网站熊掌号
  • flash cms网站源码如何在服务器上关闭网站
  • wordpress多主题插件下载合肥网站的优化
  • 展示型网站 带后台网站建设完成情况工作总结
  • 义乌网站用照片做的ppt模板下载网站
  • 怎么查网站的注册信息做网站的功能是什么
  • app外包网站崇州市网站建设
  • 大型网站开发周期wordpress资源站
  • html5 网站正在建设中h5网站开发软件
  • 网站建设教程pdf百度云济南网站制作工作室
  • 兰州新区建设局网站网站建设哪里好
  • 长阳网站建设做旅游信息的网站能赚钱吗
  • 做网站收获了什么旅游网站制作文献
  • 龙岗区建设局网站苏州企业网站设计开发
  • 自己怎么做一元购物网站莱芜户型优化培训
  • 网页制作模板的淘宝网站代码太原软件开发公司有哪些
  • 建材网站建设网站建设一个月多少钱
  • 重庆网站建设必选承越网络营销手段有哪四种
  • 工作室建设与管理思路与设想百度seo找哪里
  • 达州市网站建设三亚新闻发布会直播第十五场