当前位置: 首页 > news >正文

网站链接数怎么做wordpress新手教程

网站链接数怎么做,wordpress新手教程,免费效果图网站,asp网站后台无法编辑1. 引言 在财务部门,处理大量的纸质或扫描版发票是一项既耗时又容易出错的任务。通过使用Python中的pytesseract(一个OCR工具)和pandas库,我们可以自动化这一过程,从而提高工作效率并减少错误。 2. 安装所需库 首先…

1. 引言

在财务部门,处理大量的纸质或扫描版发票是一项既耗时又容易出错的任务。通过使用Python中的pytesseract(一个OCR工具)和pandas库,我们可以自动化这一过程,从而提高工作效率并减少错误。

2. 安装所需库

首先确保你的开发环境中安装了以下库:

  • pytesseract:用于OCR文本识别。
  • Pillow:用于图像处理。
  • pandas:用于数据管理和导出到Excel。

可以通过以下命令进行安装:

pip install pytesseract pillow pandas

同时,你需要安装Tesseract OCR引擎,并根据实际情况设置其路径。

3. 代码详解

接下来我们将详细解析如何使用这些库来从发票图片中提取关键信息,并将这些信息保存到Excel文件中。

3.1 导入必要的模块

首先导入需要的模块。

import pytesseract
from PIL import Image
import pandas as pd
import re  # 用于正则表达式

3.2 设置Tesseract路径

设置Tesseract OCR引擎的路径。请根据你的实际安装路径进行调整。

# 设置Tesseract路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

3.3 定义提取发票信息的函数

定义一个名为extract_invoice_info的函数,它接受一个参数:发票图片的路径(image_path)。

打开图像

使用Pillow库打开图像文件。

def extract_invoice_info(image_path):# 打开图像img = Image.open(image_path)
使用Tesseract进行OCR识别

使用pytesseract.image_to_string方法对图像进行OCR识别。对于中文发票,我们指定语言为chi_sim

    # 使用Tesseract进行OCR识别text = pytesseract.image_to_string(img, lang='chi_sim')
提取关键信息

使用正则表达式从识别的文本中提取发票号码、开票日期和合计金额。

    # 提取关键信息invoice_number = find_pattern(text, r'发票号码:(\d+)')invoice_date = find_pattern(text, r'开票日期:(\d{4}-\d{2}-\d{2})')total_amount = find_pattern(text, r'合计金额:(\d+\.\d+)')return {'发票号码': invoice_number,'开票日期': invoice_date,'合计金额': total_amount}

3.4 定义正则表达式匹配函数

定义一个辅助函数find_pattern,用于从文本中查找符合特定模式的信息。

def find_pattern(text, pattern):match = re.search(pattern, text)if match:return match.group(1)return None

3.5 定义保存数据到Excel文件的函数

定义一个名为save_to_excel的函数,它接受两个参数:发票数据列表(data)和输出文件名(output_file)。

def save_to_excel(data, output_file):df = pd.DataFrame(data)df.to_excel(output_file, index=False)

4. 运行脚本

保存上面编写的代码到.py文件中,例如命名为auto_invoice.py。然后打开终端或者命令提示符,切换到包含此文件的目录下,执行如下命令运行程序:

一旦运行起来,你就会看到一个名为“invoices.xlsx”的新Excel文件被创建出来,其中包含了从发票图片中提取的关键信息。

5. 结论

通过本文的学习,你应该已经掌握了如何使用Python与pytesseractpandas库来实现自动化发票处理。这不仅可以帮助你快速提取和管理大量发票信息,还能显著提高工作效率。

http://www.yayakq.cn/news/552348/

相关文章:

  • 东莞公司建网站要多少费用简述企业建设网站的必要性
  • 网站建设注意要求天津市政建设集团有限公司网站
  • 佛山网站建设哪家好用html建设网站
  • 如何设置网站子域名农家乐网站模板
  • 应用大全网站广州微信营销公司
  • 台州优化网站企业网站推广方案设计
  • 做外贸上什么网站徐水网站建设公司
  • 中山哪家建网站好如何做电商运营推广
  • 360海南地方网站上海松一网站建设
  • 专门做酒店设计的网站买下云服务器怎么做网站
  • 山丹做网站的公司个人备案经营网站备案
  • discuz论坛门户网站模板像淘客基地这样的网站如何做
  • 网站建设实力宣传海报c2c的平台有哪些
  • 学院网站设计说明书网站被百度k是什么意思
  • 做单页面网站湖北智能网站建设推荐
  • wordpress网站被挂马网站设计配色案列
  • 企业网站开发设计展示网站如何做
  • 影院网站建设主管网站建设的盈利性和非盈利性
  • 网站规划小结微信公众号小程序搭建
  • 闵行营销型网站制作企业网站完整版
  • 做一人网站要多少钱wordpress能做商城
  • 网站免费推广方式北京网站开发建设 58同城
  • 凡科外贸网站建设网件路由器怎么样
  • wordpress双首页福州seo技巧培训
  • 广告公司微网站建设西宁市营销网站建设公司
  • 个人网站 教程有哪些ui的设计网站
  • 建设网站有哪些步骤南京制作网页设计
  • 西安地产网站建设横沥网站建设公司
  • 图片设计制作网站做临床研究在哪个网站注册
  • 网站开发与维护算什么职位网站定制费用