当前位置: 首页 > news >正文

中国建设银行预约网站首页wordpress手机端模板下载

中国建设银行预约网站首页,wordpress手机端模板下载,安徽省建设造价网站,网站访客qq统计系统一、微软Word历史、背景: Word 的特异功能就是把那些应该写成简单的 TXT 或 PDF 格式的文件,变成了既大又慢且难以打开的怪兽,它们经常在系统切换和版本切换中出现格式不兼容,而且因为某些原因在文件内容已经定稿后仍处于可编辑的…

一、微软Word历史、背景:

Word 的特异功能就是把那些应该写成简单的 TXT 或 PDF 格式的文件,变成了既大又慢且难以打开的怪兽,它们经常在系统切换和版本切换中出现格式不兼容,而且因为某些原因在文件内容已经定稿后仍处于可编辑的状态。Word 文件从未打算让人频繁传递。不过它们在一些网站上很流行,包括重要的文档、信息,甚至图表和多媒体;总之,那些内容都应该用 HTML代替。

大约在 2008 年以前,微软 Office 产品中 Word 用 .doc 文件格式。这种二进制格式很难读
取,而且能够读取 word 格式的软件很少。

为了跟上时代,让自己的软件能够符合主流软件的标准,微软决定使用 Open Office 的类 XML 格式标准,此后新版 Word 文件才与其他文字处理软件兼容,这个格式就是 .docx。

Python 对 这 种Open Office 和 Microsoft Office 都 在 使 用 的 .docx 格式 的 支 持 还 不 够 好。 虽 然 有 一 个 python-docx 库,但是只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

想读取 Microsoft Office 文件的正文内容,我们需要自己动手找方法。

二、从文件读取XML:

from zipfile import ZipFile
from io import BytesIO
from bs4 import BeautifulSoup
wordFile = open('/home/lijiang/Excel人员数据/码农必会词汇表.docx', 'rb').read()
wordFile = BytesIO(wordFile)
document = ZipFile(wordFile)
xml_content = document.read('word/document.xml')
print(xml_content.decode('utf-8'))

这段代码将Word文档读成二进制文件对象,再用标准库zipfile解压,再读取这个解压文件,这样就成为XML格式了。运行的输出结果包含了大量信息,但是被隐藏在XML格式里面。观察后会看到文档的正文内容都包含在<w:t>标签里面。这样就容易处理了。

三、用BeautifulSoup处理正文内容的XML标签:

from zipfile import ZipFile
from io import BytesIO
from bs4 import BeautifulSoupwordFile = open('/home/lijiang/Excel人员数据/码农必会词汇表.docx', 'rb').read()
wordFile = BytesIO(wordFile)
document = ZipFile(wordFile)
xml_content = document.read('word/document.xml')wordObj = BeautifulSoup(xml_content.decode('utf-8'), features="lxml")
textStr = wordObj.findAll('w:t')for textElem in textStr:
print(textElem.text)

为了以XML格式解析这个文档,需要在BeautifulSoup构造方法中指定关键字参数features='lxml'。word对象的findAll方法将带标签<w:t>的正文内容返回了一个列表。遍历此列表时,引用列表元素textElem的text属性,就去除了所有七七八八的标签,只剩下纯粹的正文内容了。也可以看到word是如何对文字进行断行处理的。

http://www.yayakq.cn/news/850068/

相关文章:

  • 网站哪家做的好深圳保障性住房可以买卖吗
  • 网页界面设计作品推荐免费外链网站seo发布
  • 网站改版 请示中国搜索引擎大全
  • dw网页制作教程主页子页网奇seo赚钱培训
  • 番禺人才网站打车小程序源码
  • 网站建设的意义是什么广西建设网郭业棚
  • 为什么网站开发需要写php大气网站首页欣赏
  • 企业网站属于广告吗那里有专门做印刷品的网站
  • 网站电话改了子页怎么改深圳搜索seo优化排名
  • php网站开发招聘需求先做个在线电影网站该怎么做
  • pc手机一体网站有没有教做川菜的网站
  • 网站扁平化结构和树形结构wordpress搜索插件提前
  • 优秀的定制网站建设服务商壶关网站建设
  • 电脑网站打不开怎么解决刷网站关键词排名原理
  • 网站内容怎么修改南昌新建网站建设
  • o2o网站建设要多少钱旅游网站建设的技术方案
  • 做业务的网站企业型网站价目表
  • 怎么样做国外推广网站ui设计主要用的软件
  • 天津做网站制作活动策划书模板范文
  • 潍坊的网站建设网页制作素材图片美食
  • 建设网站那家公司好上住房和城乡建设部网站
  • 龙华做手机网站建设深圳网站设计深圳网站建设
  • 慈溪市网站建设网站建设有那些内容
  • 网站策划方案详解如何扒wordpress的模板
  • wordpress主题教程视频济南新网站优化
  • 备案期间怎么关闭网站中国装修公司排行榜
  • 天水市建设局网站怎么创造一个网站
  • 公司网站怎么突然多了好多友情链接如何删除宁波网络公司设计装修
  • 个人网站酷站赏析图片海报制作软件
  • 网站返回500错误平面设计师招聘广告文案