当前位置: 首页 > news >正文

新干网站新干今年有哪些重大建设买购网

新干网站新干今年有哪些重大建设,买购网,WordPress主题开发核心主食,wordpress 添加外链前言 本篇pdf适用windows对视觉识别0基础的的纯小白用户。大佬请绕道~~ 注意: 本项目pdf的ocr对于表格、画图文字,水印等干扰没做任何处理,因此希望各位使用该功能的pdf尽量不要含有这些干扰项,以免影响翻译效果。 流程 1.构建…

在这里插入图片描述

前言

本篇pdf适用windows对视觉识别0基础的的纯小白用户。大佬请绕道~~
注意:
本项目pdf的ocr对于表格、画图文字,水印等干扰没做任何处理,因此希望各位使用该功能的pdf尽量不要含有这些干扰项,以免影响翻译效果。

流程

1.构建环境

用conda创建一个虚拟python环境

conda crate -n pp python==3.11

2.安装包

安装飞浆paddle 和paddleocr
gpu版本

pip install paddlepaddle-gpu paddleocr

cpu版本

pip install paddlepaddle paddleocr

pdf转图片工具

https://github.com/oschwartz10612/poppler-windows/releases

pip install pdf2image

3.具体代码

假设在我们有一堆pdf文件在pdfs文件夹中,我们需要将其每个pdf文件转成对应的txt文件。则可使用如下代码


from pdf2image import convert_from_path
import cv2
import numpy as np
from PIL import Image
import os
# 将 PDF 文件转换为图片列表
files = os.listdir('pdf')for file in files:if not file.endswith('.pdf'):print(file)continuetxt = file.replace('.pdf', '.txt')if os.path.exists('txt/'+txt):continuetxt_writer = open('txt/'+txt, 'w',encoding='utf-8')images = convert_from_path('pdf/'+file)# print(type(images))# print(images[0])# image = cv2.cvtColor(np.array(images[0]), cv2.COLOR_RGB2BGR)from paddleocr import PaddleOCR, draw_ocr# 创建 PaddleOCR 实例ocr = PaddleOCR(use_angle_cls=True, lang='ch',use_gpu=True)  # 默认使用英文模型,可以通过 lang 参数切换到中文模型# 遍历每一张图片并识别文字for i, image in enumerate(images):print('第{}张图片'.format(i+1))# 转换图片为可用于识别的格式# source = image.convert('RGB')image = cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR)        # image.save(f'page_{i}.jpg')# 识别图片中的文字result = ocr.ocr(image, cls=True)# 打印识别结果try:for lines in result:for line in lines:# print(line[1][0])txt_writer.write(line[1][0]+'\n')except:print(file+'识别失败')txt_writer.close()

4.注意

由于本代码仅能简单提取pdf的文字,所以一旦出图片或者表格之类会导致该页识别效果变差,敬请谅解~

http://www.yayakq.cn/news/109100/

相关文章:

  • 邢台市住房和城乡建设局官方网站西樵网站制作
  • 网站推广计划方法python编程100例
  • 晚上必看的正能量网站app中国建设银行手机app
  • 丽水微信网站建设公司沈阳做网站黑酷科技
  • 大作设计网站官网登录入口百度爱采购平台登录
  • 武夷山网站建设车陂手机网站建设
  • 首页网站怎么做的整套vi设计包含哪些
  • wordpress闭站网站建设2017主流代码语言
  • 济南网站建设系统介绍服务怎样免费制作网页
  • 网站模板 wordpress带会员系统迅速提高网站排名
  • 如何建企业仢网站优秀网站建设出售
  • asp网站 工具亚马逊店铺出售网站
  • 网络公司网站首页有创意的文创产品
  • 怎样修改网站英文域名thinkphp做网站
  • 做网站的运营维护都要学什么兰州微商城搭建
  • 网站接入百度地图个人网站建设的收获
  • 效果好的网站制作做常识的网站
  • 平顶山北京网站建设学做面食最好的网站
  • 南京网站设计平台郑州品牌创意网站建设
  • wordpress建站教程费用网络推广合作平台
  • 陕西网络推广介绍网站内部链接优化
  • 腾讯云网站备案不能用阿里云织梦做信息类网站
  • 建设银行官网招聘网站营销型网站建设中坚站
  • 长沙建设工程官方网站软件开发具体流程
  • 网站建设文字教程先进的网站设计公司
  • 网站开发 哪些文档深圳网站制作首荐祥奔科技
  • 论坛网站html模板景德镇网站开发
  • 如何做美食网站设计广州网页制作步骤
  • 如何做家教网站赚钱wordpress后台左侧菜单显示
  • 常州网站建设段新浩怎么建网站教程