当前位置: 首页 > news >正文

官网微信专业seo网络推广

官网微信,专业seo网络推广,品牌购买平台,怎么样做好网站运营目录 一、全方位了解字体渲染的全过程 1.加载顺序 2.实践操作:浏览器中调试字体渲染 3.总结: 二、字体文件的检查和数据查看 1.字体文件的操作软件 2.映射关系的建立 3.实践操作:翻找样式和真实内容 4.总结: 三、字体文…

目录

一、全方位了解字体渲染的全过程

1.加载顺序

2.实践操作:浏览器中调试字体渲染

3.总结:

二、字体文件的检查和数据查看

1.字体文件的操作软件

2.映射关系的建立

3.实践操作:翻找样式和真实内容

4.总结:

三、字体文件转换并实现网页内容还原

1.字体文件的转换

2.替换网页内容

3.实践操作:字体映射的解密和爬取

四、完美还原上百页的数据内容

1.字体文件的转换

2.替换网页内容

3.实践操作:爬虫实战,还原数据内容

4.总结:


一、全方位了解字体渲染的全过程

1.加载顺序

(1)载入字体内容或文件

(2)@font-face定义

(3)css中进行字体引用

2.实践操作:浏览器中调试字体渲染

3.总结:

(1)字体渲染:网页看到的数据和调试工具中的数据不一致。

(2)字体内容可以是文件形式,或者是base64内容格式。

(3)将加密内容进行手动替换操作。

二、字体文件的检查和数据查看

1.字体文件的操作软件

windows平台:FontCreator

macOS平台:IconFronPreview

Linux平台:FontForge

2.映射关系的建立

查看字体文件的内容,找出数字样式和真实内容

查看网页内容,找出网页的数字样式和真实内容

3.实践操作:翻找样式和真实内容

4.总结:

(1)一定要找出真实内容和数字样式的对应关系,非必需百分百找出

(2)浏览器调试工具看到的不一定是对的,可能是默认字体渲染

三、字体文件转换并实现网页内容还原

1.字体文件的转换

(1)python安装fontTools库

(2)使用fontTools读取TTF格式字体文件

(3)将内容保存成xml格式

(4)从xml格式中读取映射关系

2.替换网页内容

(1)请求网页内容

(2)循环映射关系,批量替换掉网页内容中的加密字体

(3)解析替换数据后的网页数据内容

(4)请求并分析接口数据的内容

(5)将日志保存到文件

3.实践操作:字体映射的解密和爬取

# 麣龒龤龒&#x9f92
# 10400import requests
from fontTools.ttLib import TTFont # pip install fontTools
from lxml import etreefonturl = 'http://shanzhi.spbeen.com/static/fonts/szec.ttf'
fontresponse = requests.get(fonturl)
print(fontresponse)
with open('font.ttf','wb') as file:file.write(fontresponse.content)font = TTFont("font.ttf")
# font.saveXML("font.xml")
result_dict = {}
for k,v in font['cmap'].getBestCmap().items():# hex()函数是将十进制转成16进制k = hex(k).replace('0x','&#x')+';'v = int(v[8:10])-1result_dict[k]=str(v)
print(result_dict)url = 'http://shanzhi.spbeen.com/search/?word='
response = requests.get(url)
html = response.text
for k,v in result_dict.items():html = html.replace(k,v)
# print(html)htmlobj = etree.HTML(html)
divcard = htmlobj.xpath('.//div[@class="content"]/div')
for dc in divcard:td = {}td['标题'] = dc.xpath('./div/h5/a/text()')td['薪资'] = dc.xpath('./div/h5/small/text()')print(td)

四、完美还原上百页的数据内容

1.字体文件的转换

2.替换网页内容

3.实践操作:爬虫实战,还原数据内容

import requests
from fontTools.ttLib import TTFont
from lxml import etree
from time import sleepimport logginglogging.basicConfig(level=logging.DEBUG,filename='debug.log',filename='a',format='%(asctime)s-%(levelname)s-[%(filename)s:%(lineno)d]-%(message)s')font = TTFont("font.ttf")
result_dict = {}
for k,v in font['cmap'].getBestCmap().items():# hex()函数是将十进制转成16进制k = hex(k).replace('0x','&#x')+';'v = int(v[8:10])-1result_dict[k]=str(v)def replace_html(html:str):for k,v in result_dict.items():html = html.replace(k,v)return htmlurl = 'http://shanzhi.spbeen.com/search/?word=%E5%B5%8C%E5%85%A5%E5%BC%8F&page={}&_=1631261605624'for i in range(1,10000):turl = url.format(i)response = requests.get(turl)html = replace_html(reponse.text)htmlobj = etree.HTML(html)divcard = htmlobj.xpath('.//div[contains(@class, "animate__animated")]')total_num += len(divcard)print("当前页面是第{}页,总计有{}条数据,当前页数据如下:".format(i,len(divcard),total_num))for dc in divcard:td = {}td['标题'] = dc.xpath('./div/h5/a/text()')td['薪资'] = dc.xpath('./div/h5/small/text()')print('               ',td)if len(divcard) < 10:breakelse:passsleep(0.1)

4.总结:

(1)提取出具体的原数据和对应数字,进行网页内容的替换

(2)注意原数据的完整格式,确保替换后的数据没有多余符号

(3)找数据接口和具体参数,循环请求接口拿数据

http://www.yayakq.cn/news/922134/

相关文章:

  • 做网站设计电脑买什么高端本好南山龙岗最新通告
  • 网站的中英文切换怎么做的做淘宝客建网站用什么
  • ssc网站建设担保交易百度收录情况
  • 即墨网站建设招聘菏泽小程序开发制作
  • 镇赉县做网站的邵阳建网站
  • 做网站好的品牌哪里有前端技术培训
  • 企业网站制作费做分录建设网站报告书
  • 成都网站制作价格公司邮箱怎么注册
  • 什么系统网站好建设一个网站需要什么技术
  • 沧州做网站推广网站建站报告
  • 培训网站建设方案it外包公司联系电话
  • 深圳品牌网站建设服务费用软文写作公司
  • 不懂技术与产品怎样做网站网络广告文案
  • 网站做302重定向会怎么样阿里云esc建设网站
  • 网站建设问题南阳网站seo推广公司
  • 怎样看网站是什么语言做的网站开发 软件有哪些
  • 网站底部代码大全冲浪网站优化网
  • 福州市建设厅网站网站 手机验证码 实例
  • 北京工程建设交易网丹东网站优化
  • 小程序代码做网站海口市建设局网站
  • 贵州省遵义市住房城乡建设局网站高端大气的的网站
  • 公司建网站软件做网站怎么添加点击事件
  • 网站和网页的区别在于系统开发难度最大的阶段
  • 庐山市建设规划局网站泉州app网站开发
  • 企业网站php源码免费下载网络黄页推广软件下载
  • 网站建设donglongyun住房和城乡建设部关于资质延期
  • 如何进行医药网站建设广州企业网站建设哪家服务好
  • 深圳做网站的公司哪个好凡科登录入口下载
  • 甘肃建网站网站建设及维护流程
  • 做网站流量怎么解决什么是网络营销的渠道策略