我是.net的新手,我有一个包含三个表的pdf (与购买细节)我的任务是提取所有的3个表从pdf和转换成一个excel表(三个excel表)使用c#代码。,我谷歌了3天,所有我能找到的是从pdf中提取文本的代码(但没有任何格式),我不能购买任何第三方工具,我需要一种方法,至少提取文本在适当的表格格式,然后我会转换成excel使用互操作,或一个代码直接转换成excel,无论什么解决方案我迫切需要它,请帮助。
发布于 2013-09-29 21:08:08
itextpdf支持c#从pdf中提取信息,但是要回答我们可以将表提取到哪里:
如上所述:如果从技术角度来看,PDF不是表单,则无法从看起来像表单的PDF中获取字段;如果PDF中缺少表格结构(使用标签),则无法从看起来像表的PDF中获取表。
我从他们的support panel上得到的
发布于 2013-09-29 22:25:01
我建议你看看xpdf。它有一个命令行界面,你可以从pdf中获取一个文本文件。最重要的是,对于列,xpdf会生成一个间隔良好的文本文件,因此您可以使用Substring()或在最坏的情况下使用正则表达式轻松地读取数据。在最简单的情况下,您可以直接将pdf输出导入到Excel中,作为带有“固定宽度字段”的文本文件。
https://stackoverflow.com/questions/19078310
复制相似问题