当前位置: 首页 > news >正文

免费的网站制作怎么看一个网站好坏

免费的网站制作,怎么看一个网站好坏,html5是什么,wordpress 登录用户名密码忘记最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片…

       最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片的简单转换工具,供大家参考,具体步骤和应用测试示例如下。

1.安装pdf2image包

需要先安装pdf2image包,安装命令:pip3 install pdf2image

2.安装poppler用于实现pdf2image

安装poppler-windows,下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v23.11.0-0

3.配置环境变量

将上述压缩包解压缩之后,将路径配置到环境变量path中,如path=:D:\tools\poppler-24.08.0\Library\bin

4.修改poppler_path指向的路径

修改pdf2image包的pdf2image.py文件,将poppler路径为上述路径,具体如下。

# pdf2image.py文件修改
def convert_from_path(pdf_path: Union[str, PurePath],output_file: Any = uuid_generator(),poppler_path=r'D:\tools\poppler-24.08.0\Library\bin',  # 需要修改为path中配置的poppler路径。grayscale: bool = False
) -> List[Image.Image]:...
5.测试示例代码
import fitz  # PyMuPDF  
from pdf2image import convert_from_path  
import os,sys
def extract_fullpage_images(filename,pdf_path,output_folder):  # 打开PDF文件  doc = fitz.open(pdf_path)  # output_folder = "extracted_content_pdf"  os.makedirs(output_folder, exist_ok=True)  os.makedirs(output_folder + "/png-full/", exist_ok=True)  # 遍历每一页  for page_num in range(len(doc)):  page = doc.load_page(page_num)        # 使用pdf2image将整个页面转换为图像  images = convert_from_path(pdf_path, first_page=page_num + 1, last_page=page_num + 1) for img_index, img in enumerate(images):  img.save(f"{output_folder}/png-full/page_{page_num + 1}_full_img_{img_index + 1}.png", 'PNG')  print(f"Processed page {page_num + 1}================================")  doc.close()# 示例: python pdfSplitAdapterPMI.py D:\xxx\report.pdf
if __name__ == '__main__':  # 检查参数个数  argc = len(sys.argv)  if (argc <= 1):  print('missing Parameter' % locals())  sys.exit()  filepath = sys.argv[1]  pdf_path = filepathfilename=filepath.split('\\')[-1][:-4]  output_folder = filepath[:filepath.rfind('\\')]+"\extracted_content2_"+filename  extract_fullpage_images(filename,pdf_path,output_folder)
6.转换结果对比

1.原始pdf文件

2.转换后每一页的图片文件列表

http://www.yayakq.cn/news/626011/

相关文章:

  • 免费教如何php网站建设深圳如何做网站
  • 网站登录入口大全电商数据分析
  • 平面素材网站哪个最好自搭建网站
  • 合肥中小型企业网站建设方案模板wordpress 翻页没内容
  • 电商网站春节放假通知霸气又聚财的公司名字大全
  • PHP网站开发有哪些框架上海网络建设规划
  • wordpress导航怎么弄优化网站的方法有哪些
  • 受欢迎的赣州网站建设网站pr怎么提升
  • 网站添加在线支付功能网站排名优化外包
  • 长沙手机网站建设公司wordpress评论回复插件
  • 西安做网站设计的公司漯河网站开发
  • 网站做担保交易平台wordpress7验证码插件
  • 公司的官方网站怎么做宜昌怎样优化网站建设
  • 经典企业网站模板集团网站建设需求
  • 如何做网站免费校园网站群建设
  • 福建省建设执业注册与管理中心网站seo研究中心qq群
  • 网站下载服务器配置怎么可以做网站的网站
  • 做谷歌网站企业网站建设的主要步骤
  • 做网站游戏都需要什么wordpress打赏插件
  • 视频网站怎么做网站引流自己本地可以做网站服务器吗
  • 网站做ppt模板济南制作网站的公司吗
  • 环球资源网发展现状seo关键词排名优化推荐
  • 建设银行英文网站网页设计实训报告心得体会
  • 怎么建站网站网上开店铺需要什么流程
  • 用iis制作简单网站天琥设计培训
  • 手机网站设计立找亿企邦网站编辑模版
  • 成都大丰五块石网站建设wordpress说明文档
  • 做唯品客网站的感想建设银行忘记密码网站
  • 阜阳网站建设阜阳安卓html编辑器中文版
  • 视频网站开发架构有什么好网站做浏览器主页