当前位置: 首页 > news >正文

哈尔滨快速建站点击查看晋中网络推广

哈尔滨快速建站点击查看,晋中网络推广,网站后台如何上传ico图标,网站建设哪里最好接单子前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。 这些库的…

前言

本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。
可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。
这些库的更多使用方法,请到官方文档中查阅。

读取PDF文本:PyPDF2

import PyPDF2def read_pdf_to_text(file_path):with open(file_path, 'rb') as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)contents_list = []for page in pdf_reader.pages:content = page.extract_text()contents_list.append(content)return '\n'.join(contents_list)read_pdf_to_text('xxx.pdf')

读取Word文本:docx2txt

doc需先手动转换成docx

import docx2txtdef read_docx_to_text(file_path):text = docx2txt.process(file_path)return textread_docx_to_text('xxx.docx')

读取excel文本:pandas

当然,pandas能读取的文件不仅仅是excel,还包括csv、json等。

import pandas as pddef read_excel_to_text(file_path):excel_file = pd.ExcelFile(file_path)sheet_names = excel_file.sheet_namestext_list = []for sheet_name in sheet_names:df = excel_file.parse(sheet_name)text = df.to_string(index=False)text_list.append(text)return '\n'.join(text_list)read_excel_to_text('xxx.xlsx')

读取ppt文本:pptx

from pptx import Presentationdef read_pptx_to_text(file_path):prs = Presentation(file_path)text_list = []for slide in prs.slides:for shape in slide.shapes:if shape.has_text_frame:text_frame = shape.text_frametext = text_frame.textif text:text_list.append(text)return '\n'.join(text_list)read_pptx_to_text('xxx.pptx')

读取csv、txt其他文本:直接open,read()

def read_txt_to_text(file_path):with open(file_path, 'r') as f:text = f.read()return textread_txt_to_text('xxx.csv')
read_txt_to_text('xxx.txt')

读取任何文件格式

有了前面的所有函数,那我们可以写一个支持传任意格式文件的函数。

support = {'pdf': 'read_pdf_to_text','docx': 'read_docx_to_text','xlsx': 'read_excel_to_text','pptx': 'read_pptx_to_text','csv': 'read_txt_to_text','txt': 'read_txt_to_text',
}def read_any_file_to_text(file_path):file_suffix = file_path.split('.')[-1]func = support.get(file_suffix)if func is None:return '暂不支持该文件格式'text = eval(func)(file_path)return textread_any_file_to_text('xxx.pdf')
read_any_file_to_text('xxx.docx')
read_any_file_to_text('xxx.xlsx')
read_any_file_to_text('xxx.pptx')
read_any_file_to_text('xxx.csv')
read_any_file_to_text('xxx.txt')

结语

以上就是全部常见的文件格式的读取和提取所有文本的全部内容了。
更多其他的使用方法请查阅官方文档。

http://www.yayakq.cn/news/910330/

相关文章:

  • 有趣的网站 知乎免费建立自己的个人网站
  • 网站单页面怎么做鱼巴适设计师服务平台
  • 做网站义乌平面设计专业就业前景和就业方向
  • 网站建设用什么书怎么创建网站自己创建
  • 手机网站建站步骤论文什么网站做3d模型能赚钱
  • 地方门户网站盈利模式wordpress建站站长之家
  • 榆林建设局网站如何提高百度权重
  • 做网站app的工资高吗网站开发系统计划书
  • 衡东建设局网站做游戏网站有几个要素
  • 怎么攻击织梦网站网站的运营管理方案
  • 网站备案必须在公司注册地做国际网站的流程
  • 网站设计网站浏览济宁北湖建设集团网站
  • 吴中快速建设网站价格智能家居型网站开发
  • 本地生活网站建设2024年全员核酸
  • 设计企业品牌网站免费的黄冈网站有哪些平台游戏软件
  • 网站几个数据库网站源码大全最新
  • 盘锦网站建设东莞房价2021
  • 吃的网站要怎么做开发区高级中学
  • 做快消品的网站做网站要学多久
  • 网站开发有哪几类电子商城网站建设价格
  • 做网站大概需要几步福州网吧
  • 站长工具网址查询百度指数人群画像
  • 四川网站备案核验单猎头公司是啥意思
  • 青州网站建设福田补贴每人9000元
  • 化妆培训学校网站建设新手学建设网站书籍
  • 如何查询网站的域名注册石家庄网站建设蓝点
  • 芜湖市建设路小学网站急招大龄工300元一天
  • 做网站订房网站阿里巴巴官网电话
  • 定制网站建设开发维护wordpress伪静态规则怎么写
  • 网站上面的logo怎么做wordpress的客户端