当前位置: 首页 > news >正文

做网站软件 wordpage找人帮忙注册app推广

做网站软件 wordpage,找人帮忙注册app推广,城乡建设厅官方网站,定制酒营销方案处理PDF文件中的内容是比较麻烦的事情,特别是以表格形式呈现的各种数据。为了充分利用这些宝贵的数据资源,我们可以通过程序提取PDF文件中的表格,并将其保存为更易于处理和分析的格式,如txt、csv、xlsx,从而更方便地对…

处理PDF文件中的内容是比较麻烦的事情,特别是以表格形式呈现的各种数据。为了充分利用这些宝贵的数据资源,我们可以通过程序提取PDF文件中的表格,并将其保存为更易于处理和分析的格式,如txt、csv、xlsx,从而更方便地对表格数据进行处理、分析和可视化,加快工作效率。本文将介绍如何在.NET平台使用C#代码提取并保存PDF文件中的表格数据

文章目录

    • 提取PDF文件中的表格并保存为TXT和CSV文件
    • 提取PDF文件中的表格并转换为Excel和CSV表格

本文所使用的方法需要用到免费的Free Spire.PDF for .NET,可从官网下载或通过NuGet安装:

PM> Install-Package FreeSpire.PDF

提取PDF文件中的表格并保存为TXT和CSV文件

提取PDF表格数据主要用到的是PdfTableExtractor类,该类下的ExtractTable(int pageIndex)方法可以提取任意页的所有表格数据,并返回表格的集合。在提取到表格数据后,我们就可以将数据稍作处理并写入txt文件了。下面是操作示例:

  1. 创建 PdfDocument 对象并再入PDF文件。
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("示例.pdf");
  1. 创建 PdfTableExtractor 对象。
PdfTableExtractor extractor = new PdfTableExtractor(doc);
  1. 声明 PdfTable 数组.
  2. 遍历文档页面,从页面提取表格。
tableList = extractor.ExtractTable(pageIndex);
  1. 判断表格列表是否为空,如果不为空,则使用 PdfTable.GetText(int rowIndex, int columnIndex) 方法在每个表格中获取单元格中的数据并添加到StringBuilder中。
  2. 将处理好的数据保存到TXT文件并关闭PDF文件。

完整代码示例:

using System.Text;
using Spire.Pdf;
using Spire.Pdf.Utilities;namespace ExtractPdfTable
{class Program{static void Main(string[] args){// 创建PdfDocument对象并加载PDF文件PdfDocument doc = new PdfDocument();doc.LoadFromFile("示例.pdf");// 创建 StringBuilder 对象StringBuilder builder = new StringBuilder();// 初始化 PdfTableExtractor 类的实例PdfTableExtractor extractor = new PdfTableExtractor(doc);// 声明 PdfTable 数组PdfTable[]? tableList = null;int tableCount = 1;// 循环遍历页面for (int pageIndex = 0; pageIndex < doc.Pages.Count; pageIndex++){// 从特定页面提取表格tableList = extractor.ExtractTable(pageIndex);// 判断表格列表是否为空if (tableList != null && tableList.Length > 0){// 遍历列表中的表格foreach (PdfTable table in tableList){// 获取特定表格的行数和列数int row = table.GetRowCount();int column = table.GetColumnCount();// 遍历行和列for (int i = 0; i < row; i++){for (int j = 0; j < column; j++){// 获取特定单元格的文本string text = table.GetText(i, j);// 将文本添加到 StringBuilder 中并添加制表符builder.Append(text + "\t");}builder.Append("\r\n");}// 写入 .txt 文件File.WriteAllText($"output/TXT表格/TXT表格_{tableCount}.txt", builder.ToString());tableCount += 1;}}}doc.Close();}}
}

PDF文件:
提取PDF表格数据并保存到txt文本文件

保存的TXT文件:
提取PDF表格数据并保存到txt文本文件

提取PDF文件中的表格并转换为Excel和CSV表格

在提取PDF文件中的表格后,我们还可以借助Free Spire.XLS for .NET将提取的表格保存为Excel和CSV表格。Free Spire.XLS for .NET可从官网下载或通过NuGet安装:

PM> Install-Package FreeSpire.XLS

下面是操作示例:

  1. 创建 PdfDocument 对象并加载示例PDF文件。
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("示例.pdf");
  1. 创建 Workbook 对象并清除默认工作表。
Workbook workbook = new Workbook();
workbook.Worksheets.Clear();
  1. 初始化 PdfTableExtractor 类的实例。
PdfTableExtractor extractor = new PdfTableExtractor(doc);
  1. 声明 PdfTable 数组。
  2. 循环遍历PDF页面并提取每页的表格。
tableList = extractor.ExtractTable(pageIndex);
  1. 判断表格列表是否为空,如果不为空,则创建Excel工作表,使用 PdfTable.GetText(int rowIndex, int columnIndex) 方法从每个单元格提取数据,并通过 sheet.Range[int rowIndex + 1, int columnIndex + 1].Value 属性将数据写入到创建Excel工作表中。
  2. 将工作表保存为csv文件。
sheet.SaveToFile("output/表格/CSV表格.csv", ",", Encoding.UTF8);
  1. 或保存整个Excel工作簿为xlsx文件。
workbook.SaveToFile("output/表格/Excel表格.xlsx", ExcelVersion.Version2013);
  1. 关闭PDF文件和工作簿文件。

完整代码示例:

using System.Text;
using Spire.Pdf;
using Spire.Pdf.Utilities;
using Spire.Xls;namespace ExtractTablesToExcel
{class Program{static void Main(string[] args){// 创建 PdfDocument 对象并加载示例PDF文件PdfDocument doc = new PdfDocument();doc.LoadFromFile("示例.pdf");// 创建 Workbook 对象并清除默认工作表Workbook workbook = new Workbook();workbook.Worksheets.Clear();// 初始化 PdfTableExtractor 类的实例PdfTableExtractor extractor = new PdfTableExtractor(doc);// 声明 PdfTable 数组PdfTable[]? tableList = null;int sheetNumber = 1;// 循环遍历页面for (int pageIndex = 0; pageIndex < doc.Pages.Count; pageIndex++){// 从特定页面提取表格tableList = extractor.ExtractTable(pageIndex);// 判断表格列表是否为空if (tableList != null && tableList.Length > 0){// 遍历列表中的表格foreach (PdfTable table in tableList){// 添加工作表Worksheet sheet = workbook.Worksheets.Add(string.Format("Table_{0}", sheetNumber));// 获取特定表格的行数和列数int row = table.GetRowCount();int column = table.GetColumnCount();// 循环遍历行和列for (int i = 0; i < row; i++){for (int j = 0; j < column; j++){// 从特定单元格获取文本string text = table.GetText(i, j);// 将文本写入指定单元格sheet.Range[i + 1, j + 1].Value = text;}}sheet.SaveToFile("output/表格/CSV表格.csv", ",", Encoding.UTF8);sheetNumber++;}}}// 保存为Excel工作簿workbook.SaveToFile("output/表格/Excel表格.xlsx", ExcelVersion.Version2013);doc.Close();workbook.Dispose();}}
}

输出文件:
提取PDF表格数据并保存为CSV和Excel表格

本文介绍了如何使用免费的Free Spire.PDF for .NET和Free Spire.XLS for .NET从PDF文件中提取表格数据并保存到TXT文件、CSV文件以及Excel文件的方法。其他更多功能请前往Spire.PDF for .NET教程查看。

http://www.yayakq.cn/news/805200/

相关文章:

  • 有关于网站建设的参考文献科技类公司网站设计
  • 一搜网站制作泉州市网站设计企业
  • 张北北京网站建设西安网站建设报价
  • 网站收缩广告wordpress评论刷新查看
  • 工程设计东莞网站建设技术支持1.网站建设基本流程是什么
  • 南山做网站公司自己做网页怎么赚钱
  • 双体系建设网站惠州建网站公司
  • 网站建设公司哪家强南通集团网站建设
  • 互助网站开发南通市做网站
  • 做网站空间不给账号密码嵌入式软件开发兼职
  • 厦门云端企业网站建设新手网站
  • 海南网站建设获客网站建设首期款
  • 保护环境做网站素材html写一个心形网页
  • 用jsp做网站的感想优化方案官网
  • 眼科医院网站建设方案最新公司起名大全免费
  • 枣庄市网站建设wordpress调用热评文章
  • 网站方案策划怎么写遵义市住房和城乡建设局网站
  • 珲春市建设局网站自己建网站程序
  • 做电商网站一般需要什么流程网站建设与开发试题与答案
  • 搭建网站需要学什么软件网站设计与开发专家
  • 电子商务网站建设汉狮seo实战培训视频
  • 建设项目环保竣工验收备案网站企业网站模板下载报价多少
  • wordpress 大学网站软件开发公司经营范围
  • 密云网站制作案例wordpress 新建数据表
  • cnzz统计代码放在后台网站为什么没显示重庆市住房和城乡建设厅网站首页
  • 哈尔滨门户网站设计报价百度云盘网官网
  • 网页设计网站哪个公司好在线手机建网站
  • 企业网站禁忌深圳建设网站公司哪家好
  • 衡水网站建设在哪里oppo手机商城
  • 梅州专业网站建设教程怎样做网站手机和电脑通用