当前位置: 首页 > news >正文

触屏版网站模板做网站的案例

触屏版网站模板,做网站的案例,山西seo和网络推广,福州seo推广优化前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。 这些库的…

前言

本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。
可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。
这些库的更多使用方法,请到官方文档中查阅。

读取PDF文本:PyPDF2

import PyPDF2def read_pdf_to_text(file_path):with open(file_path, 'rb') as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)contents_list = []for page in pdf_reader.pages:content = page.extract_text()contents_list.append(content)return '\n'.join(contents_list)read_pdf_to_text('xxx.pdf')

读取Word文本:docx2txt

doc需先手动转换成docx

import docx2txtdef read_docx_to_text(file_path):text = docx2txt.process(file_path)return textread_docx_to_text('xxx.docx')

读取excel文本:pandas

当然,pandas能读取的文件不仅仅是excel,还包括csv、json等。

import pandas as pddef read_excel_to_text(file_path):excel_file = pd.ExcelFile(file_path)sheet_names = excel_file.sheet_namestext_list = []for sheet_name in sheet_names:df = excel_file.parse(sheet_name)text = df.to_string(index=False)text_list.append(text)return '\n'.join(text_list)read_excel_to_text('xxx.xlsx')

读取ppt文本:pptx

from pptx import Presentationdef read_pptx_to_text(file_path):prs = Presentation(file_path)text_list = []for slide in prs.slides:for shape in slide.shapes:if shape.has_text_frame:text_frame = shape.text_frametext = text_frame.textif text:text_list.append(text)return '\n'.join(text_list)read_pptx_to_text('xxx.pptx')

读取csv、txt其他文本:直接open,read()

def read_txt_to_text(file_path):with open(file_path, 'r') as f:text = f.read()return textread_txt_to_text('xxx.csv')
read_txt_to_text('xxx.txt')

读取任何文件格式

有了前面的所有函数,那我们可以写一个支持传任意格式文件的函数。

support = {'pdf': 'read_pdf_to_text','docx': 'read_docx_to_text','xlsx': 'read_excel_to_text','pptx': 'read_pptx_to_text','csv': 'read_txt_to_text','txt': 'read_txt_to_text',
}def read_any_file_to_text(file_path):file_suffix = file_path.split('.')[-1]func = support.get(file_suffix)if func is None:return '暂不支持该文件格式'text = eval(func)(file_path)return textread_any_file_to_text('xxx.pdf')
read_any_file_to_text('xxx.docx')
read_any_file_to_text('xxx.xlsx')
read_any_file_to_text('xxx.pptx')
read_any_file_to_text('xxx.csv')
read_any_file_to_text('xxx.txt')

结语

以上就是全部常见的文件格式的读取和提取所有文本的全部内容了。
更多其他的使用方法请查阅官方文档。

http://www.yayakq.cn/news/658157/

相关文章:

  • 做网站用什么字体字号做网站用建站模版好还是定制好
  • 医疗网站优化公司网站开发到发布
  • 宁波seo外包服务平台合肥seo排名扣费
  • 给公司做网站芜湖做网站的邓健照片
  • 网站制作课程介绍展示网站系统架构设计
  • 潮州营销型网站建设推广wp网站源码
  • 东莞建英文网站的公司推广代运营公司
  • 如何做平台网站包装设计网官网
  • 国外网站建设现状wordpress 上注册用户
  • 茂名整站优化广州做企业网站
  • 一条龙做网站h5直播视频接入
  • 注册域名多长时间建设优化网站
  • 旅游网站建设目标分析河北保定最新通知
  • 株洲网站开发wordpress 分类不显示
  • 行业网站推广什么意思佛山网站制作做多少钱
  • 个人做网站需要备案吗全国二级建造师注册信息查询网站
  • 网站需要怎么做的wordpress程序重装
  • 用html做的美食网站工业设计作品
  • 网站前台后台做聊天室cpa用什么类型的网站好
  • 东营市建设监理协会网站济南企业建站平台
  • 做网店好还是网站好西安软件公司招聘信息
  • 南宁网站建设策划方案个人能建电商网站吗
  • 平面设计最常用的网站如何向百度提交站点收录信息
  • 计算机网站建设实验总结做网站一个月赚多少
  • 月付购物网站建站微网站免费建设平台
  • 小程序致美发型设计搜索引擎优化的定义是什么
  • 先申请域名后做网站电子元器件商城官网
  • 曲阜网站建设价格西安seo专员
  • 网站建设中一览二栏什么意思大数据平台怎么搭建
  • 网页策划书 网站建设定位seo门户 site