文章/答案/技术大牛

发布

社区首页 >问答首页 >从PDF python中提取/识别表

问从PDF python中提取/识别表
EN

Stack Overflow用户

提问于 2015-02-16 00:04:14

回答 3查看 114.1K关注 0票数 50

是否有任何支持表标识和提取的开源库？

我的意思是：

标识存在的表结构
将表与其内容分类
以有用的输出格式从表中提取数据，例如JSON / CSV等。

我曾研究过有关这一主题的类似问题，发现如下：

PDFMiner，它解决了问题3，但似乎需要用户为每个表指定一个表结构的PDFMiner (如果我错了，请纠正我)。
pdf表格-摘录试图解决问题1，但根据待办列表，它目前无法识别由空格分隔的表。这是一个问题，因为我的PDF中的所有表都用空格分隔！

目前，我在想，我需要花费大量的时间来开发一个机器学习解决方案来从PDF中识别表结构。因此，任何替代方法都将是非常受欢迎的！

pdf

scrape

pdf-parsing

pdf-scraping

python

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-02-17 01:00:13

你一定要看看我的答案：

从PDF文件集合中提取表格内容

还可以查看其中包含的所有链接。

表格/表格是当前用于PDF抓取的最佳表格提取工具。

票数 41

Stack Overflow用户

发布于 2017-08-20 22:20:55

经过几个小时卓有成效的探索，OCR库，包围盒和聚类算法-我找到了一个非常简单的解决方案，让你想哭！

我希望你正在使用Linux；

pdftotext -layout NAME_OF_PDF.pdf

太棒了！

现在你有了一个很好的文本文件，所有的信息都排列在漂亮的列中，现在把它格式化成csv等就很简单了。

正是在这样的时候，我喜欢Linux，这些家伙想出了令人惊奇的解决方案，并把它免费！

票数 49

Stack Overflow用户

发布于 2017-04-22 10:38:40

我只想补充一下Kurt给出的非常有帮助的答案--现在有一个用于Tabula的Python包装器，到目前为止，它似乎运行得很好：https://github.com/chezou/tabula-py。

这将将您的PDF表转换为Pandas数据框架。你也可以在x，y坐标中设置区域，这对于不规则数据来说显然非常方便。

票数 18

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28532770

复制

相似问题

问从PDF python中提取/识别表
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF python中提取/识别表EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF python中提取/识别表
EN