当前位置: 首页 > news >正文

c 网站开发架构wordpress the content

c 网站开发架构,wordpress the content,seo长尾快速排名,如何设置网站关键词Python爬取网页信息 需求: 持续爬取某嵌入式设备配置网页上的状态信息 shell脚本 简单快速, 不用装插件只能爬取静态内容 用curl命令返回整个网页的内容用grep命令抓取其中某些字段结合正则表达式可多样查找但对于动态内容, 比如对某嵌入式设备配置网页上的一条不断更新的信…

Python爬取网页信息

  • 需求: 持续爬取某嵌入式设备配置网页上的状态信息

shell脚本

  • 简单快速, 不用装插件
  • 只能爬取静态内容
  1. curl命令返回整个网页的内容
  2. grep命令抓取其中某些字段
  3. 结合正则表达式可多样查找
  4. 但对于动态内容, 比如对某嵌入式设备配置网页上的一条不断更新的信息, 可能只能爬出来占位符XXXX, 不满足我的需要
#!/bin/bash
while true
do# 获取时间戳timestamp=$(date +"%Y-%m-%d %T")# 先获取网页内容, 再获取内容中带Temperature的一行temperature_line=$(curl -s "http://lidar-internal-config.com" | grep "Temperature")# 打印出来echo "$timestamp $temperature_line" >> log.txt  sleep 1
done
# wget和curl差不多效果
# wget -q -O - 192.168.4.5 | grep -o "gps lock\|gps unlock" | awk '{print strftime("%Y-%m-%d %H:%M:%S"), $0}'

python脚本

  • 要安装一些东西, 有点麻烦

  • 可以爬取动态内容, 模仿网页

  • Ubuntu安装selenium

    • pip安装的可能是py2环境下的, 这时要用pip3安装
  • 再安上边链接的步骤安装geckodriver

    • Ubuntu自带火狐, 所以用geckodriver, 会先打开一个网页, 然后在这个网页上刷新.
    • 如果用get打开网页就读取内容, 可能动态内容还没刷出来, 有时还会抓到占位符, 加个延时就行
    • phantomjs不会打开网页, 但对于变化内容还是只能爬出占位符XXXX, 官方好像也放弃这库, 推荐用firefox或chrome
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import datetime
browser = webdriver.Firefox()
# browser = webdriver.PhantomJS() # 不好用
# 传入地址, 返回要抓取的内容
def Get_Status(address):browser.get(address)time.sleep(0.2) # 延时等待正常刷新# 定位到带GNSS静态字符的位置, 方便抓旁边的动态字符elements = browser.find_elements_by_xpath("//*[text()='GNSS']")sibling_element = elements[0].find_element_by_xpath(".").# 抓取动态内容find_element_by_xpath("./following-sibling::*").text# print(sibling_element)return sibling_elementcurrent_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
file_name = "./log/gps_monitor"+current_time+".txt" # 先定好文件名while True:current_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") # 每条记录打上时间戳Status = Get_Status("你要访问的ip地址")# 写入log文件内with open(file_name,'a') as f:f.write("{}: GGG: {} \n".format(current_time, Status))time.sleep(10)
browser.close()
http://www.yayakq.cn/news/849900/

相关文章:

  • 投资网站怎么做品牌包装设计制作
  • 群团网站建设wordpress调分类目录的方法
  • 顶做抱枕网站个人网站背景图片
  • 上海物流网站建设正规赚佣金的平台
  • 天河手机建网站宁波大型网站设计公司
  • 网站做链接代码wordpress弹幕
  • 浦东新区专业做网站wordpress注册无提示
  • 那个网站推作者微信朋友圈广告推广代理
  • 余姚网站建设服务微信开发网站开发
  • 智慧景区网站建设做网站绑定 对应的域名
  • 内蒙古建设兵团网站机关作风建设网站
  • 效果图网站接单wordpress积分兑换
  • 宝安网站设计案例龙华网站建设销售员
  • 公司做网站的费属于广告费么广西网站建设公司招聘
  • 中企动力做的网站好吗建个网站要花多少钱
  • 新乡seo网站推广工具怎么面试一个网站开发的人
  • 网站怎么做支付宝接口瑞安做微网站
  • 红色主题网站模板wordpress 安装502
  • 医疗网站咨询源码wordpress管理员地址
  • 小型教育网站的开发与建设平邑建设银行网站
  • 网站推广怎么做才有效果wordpress 安装插件 ftp
  • 做网站干什么用怎么看网站是谁家做的
  • 如何面试网站开发wordpress非法关键词
  • 网站是怎么优化的广州做一个网站多少钱
  • asp系统网站怎么做优化flash可以做网站
  • wordpress 搞笑网站电子商务网页设计试题
  • 学校网站样式织梦 视频网站源码
  • 北京建站沈阳网站关键词
  • 官方网站下载派的app美术类网站建设费用
  • 浙江大成建设集团有限公司网站网站设计背景图片