当前位置: 首页 > news >正文

网站建设前台后台设计英铭广州网站建设

网站建设前台后台设计,英铭广州网站建设,建设网站公司哪里好,长兴县住房和城乡建设局 网站文章目录 前言发现问题解决方案问题分析大致逻辑 show my code 前言 在使用pdfplumber读取PDF的过程中,由于加黑的内容会被莫名其妙的读取两次,带来了很大的困扰。这篇文章将给出解决方案。 发现问题 在在使用pdfplumber读取PDF的过程中,读…

文章目录

  • 前言
  • 发现问题
  • 解决方案
    • 问题分析
    • 大致逻辑
  • show my code

前言

在使用pdfplumber读取PDF的过程中,由于加黑的内容会被莫名其妙的读取两次,带来了很大的困扰。这篇文章将给出解决方案。

发现问题

在在使用pdfplumber读取PDF的过程中,读取普通内容是完全没有问题的。但是该公司早期PDF并未完全规范的过程中,有些标题加粗了,而有些却没有。加粗的标题将会被读取两次,比如好好的123456,加粗后将会被读取为112233445566。这可不太好。

解决方案

问题分析

首先我们需要明白,加粗的内容只会被连续读取,而不会被随机读取,这一点使得字符串具备了一定的规律。所以循环或者递归都是可行的,只是我们需要记住递归的最大深度为1000

其次我们需要明确,不是所有的连续内容都应该被删除。比如111被读成了111111,那可不能删的只剩下1,这就又和PDF上想要传达的内容不一致了。所以正则表达式也是不能乱用的。

大致逻辑

既然有这些要求,我们就好办了。

我们考虑极端场景:111111。我们就直接先数一数连续重复有几个,然后保留一半就好了。

然后再考虑一般场景:111111222222333333。在处理过程中,实际上也就是相当于把字符串拆成了3份,每份利用极端场景111111的做法去做。

show my code

知道该怎么办了就直接干吧。

虽然我们现在是针对加粗被重复读取的问题,字符串中的每一种字符一定是双数出现,所以简单一点的话就可以这么做:

def drop_duplicates(arr):result, i = [], 0while i < len(arr):count = 1# 计算连续相同元素的数量while i + count < len(arr) and arr[i] == arr[i + count]:count += 1# 保留一半result.extend([arr[i]] * count // 2)i += count  # 处理下一段return ''.join(result)

当然,考虑到并不一定具备跟现在一样完全理想的场景,所以这里也考虑了万一真的有一个数字落单的情况:

def drop_duplicates(arr):result, i = [], 0while i < len(arr):count = 1# 计算连续相同元素的数量while i + count < len(arr) and arr[i] == arr[i + count]:count += 1# 只有一个落单的话,1 // 2 = 0,这就不对了,所以上个保险,最低只能为1result.extend([arr[i]] * max(1, count // 2))i += count  # 处理下一段return ''.join(result)

解决。

http://www.yayakq.cn/news/96371/

相关文章:

  • 网站 云建站乐清网页设计公司哪家好
  • 云南网站建设百度好的网站具备
  • 顺德人做多上哪个网站自己开发一个app需要多少钱
  • 信宜网站开发公司上海租房网个人房源
  • 专业做网站的技术人员仿网站视频教程
  • 请问有重庆有做网站吗专业设计服务网站
  • 网站开发接活wordpress宝塔安装
  • 响应式网站开发视频安装网站
  • 在线html网站开发佛山seo优化电话
  • 昆明网站建设设计什么是门户
  • wordpress怎么做商城网站wordpress怎么弄背景
  • 国外活动策划网站公众号流量投放
  • 门户网站是什么什么是网络营销?
  • 中国建设银行移动门户网站运动网站建设主题
  • 用什么网站搭建小说网站企业网站管理系统推荐
  • 网站建设属开票核定税种郑州做网站zzmshl
  • 南头外贸网站建设公司可以做试卷的网站英语
  • 上海协会网站建设关于幼儿建设网站ppt模板
  • 郴州公司做网站企业网站建设市场的另一面
  • 大理州住房和城乡建设局网站百度手机助手app下载
  • 怎么做网站论坛网站改版汇报
  • 承德网站制作方案显示网站目录
  • 广西做网站的公司有哪些营销型网站建设网站建设营销
  • 内部网站建设_百度搜索引擎api
  • 东莞做网站推广商业网站缩写
  • 求职网站怎么做app开发入门基础教程
  • 网站怎么注册网页和网站区别
  • 山东招聘网站建设中山seo
  • 仿163源码商城网网站模板交易平台源码整站打包南阳新闻最新消息
  • 南宁正规公众号网站建设推广有没有做羞羞事的网站