当前位置: 首页 > news >正文

深圳正规做网站的公司百度搜索引擎地址

深圳正规做网站的公司,百度搜索引擎地址,可以做音乐mv视频网站,信息网站制作文章目录 1、问题描述2、问题原因3、问题解决 1、问题描述 今天在使用PDFPlumber模块提取PDF文本时extract_text()方法报错,报错内容如下: Traceback (most recent call last):......File "F:\Python\...\site-packages\pdfminer\pdffont.py"…

文章目录

      • 1、问题描述
      • 2、问题原因
      • 3、问题解决



1、问题描述


今天在使用PDFPlumber模块提取PDF文本时extract_text()方法报错,报错内容如下:

Traceback (most recent call last):......File "F:\Python\...\site-packages\pdfminer\pdffont.py", line 1091, in __init__self.unicode_map = ttf.create_unicode_map()File "F:\Python\...\site-packages\pdfminer\pdffont.py", line 826, in create_unicode_mapassert False, str(("Unhandled", fmttype))
AssertionError: ('Unhandled', 6)

报错代码如下:

import pdfplumberwith pdfplumber.open(rf'F:\...\file.pdf') as pdf:for page in pdf.pages:print(page.extract_text())

2、问题原因


经查找原因,最终确定可能是PDF文件本身的原因,具体可见这篇文章:https://github.com/jsvine/pdfplumber/discussions/994?sort=new

ChatGPT则认这种错误是因为库内部遇到了某种它无法处理的情况,ChatGPT给出的解决方案如下:

1) 更新PDFPlumber

pip install --upgrade pdfplumber

2) 检查PDF文件

确认PDF文件没有损坏,并且是文本格式的PDF而不是扫描的图像

3) 使用其他方法

可以尝试使用extract_words()extract_tables()等其他方法,这取决于你需要提取的内容类型

4) 捕获异常

添加异常处理,这样即使遇到错误也不会导致程序崩溃

try:text = page.extract_text()
except AssertionError as e:print(e)text = None

5) 尝试其他库

可以考虑使用其他PDF处理库,如PyPDF2或PyMuPDF等

在尝试了ChatGPT的一些建议后,确定可能是PDF本身的原因,因此考虑使用其他库

3、问题解决


经过尝试,最终发现PyMuPDF库可以解析使用:

import fitzwith fitz.open(rf'F:\...\file.pdf') as doc:for page in doc.pages():print(page.get_text())

看来是PDF本身的原因,我们的PDF可能已经损坏



http://www.yayakq.cn/news/783727/

相关文章:

  • 做海外网站交税吗网站开发人员的工资
  • 网站站群重庆做的好的房产网站好
  • 做音乐创作的网站用代码做网站
  • 全景校园网站开发做网站好赚钱吗
  • 只做网站的供需平台类网站建设
  • 南宁购物网站建设做类似淘宝的网站前景
  • 邯郸建设企业网站珠海响应式网站制作
  • 最好的网页设计网站mc做弊端网站
  • 手机网站样式代码phpstudy搭建本地网站
  • 网页设计类网站wordpress用户中心主题
  • 网站用哪些系统做的好处会员制网站建设
  • 免费广告推广网站重庆网上房地产官网查询备案价
  • 网站图片设置4:3html5静态网页设计
  • 网站因为备案关闭了 怎么办有什么办法可以在备案期间网站不影响seo
  • 有了源码怎么搭建网站深圳住房建筑网站
  • 电商网站建设 猪八戒网本地安装wordpress账户是什么
  • 福州网站建设企业网站关键词优化步骤
  • 做网站乱码广州个人网页制作
  • 网站产品功能的重要性邢台建设企业网站
  • 医院网站建设策划书wordpress 文章不显示
  • 网站前台如何做访问量显示休闲文化网站
  • 百度指数怎么用搜索引擎排名优化是什么意思
  • 网站页面怎么做识别二维码长春市建设工程信息网站
  • 网站建设规划书300字html学校网站模板
  • 网站地图 xml html网站运营计划书
  • 百度做网站优化多少钱一年网站建设的广告投入
  • 网站开发过程的分工南京网站设计哪家公司好
  • 成都建设银行官方网站软件资源网站推荐
  • 2345软件大全seo排名优化排行
  • 个人网站备案麻烦网站开发投标文件