首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF python中提取/识别表

从PDF python中提取/识别表
EN

Stack Overflow用户
提问于 2015-02-16 00:04:14
回答 3查看 114.1K关注 0票数 50

是否有任何支持表标识和提取的开源库?

我的意思是:

  1. 标识存在的表结构
  2. 将表与其内容分类
  3. 以有用的输出格式从表中提取数据,例如JSON / CSV等。

我曾研究过有关这一主题的类似问题,发现如下:

  • PDFMiner,它解决了问题3,但似乎需要用户为每个表指定一个表结构的PDFMiner (如果我错了,请纠正我)。
  • pdf表格-摘录试图解决问题1,但根据待办列表,它目前无法识别由空格分隔的表。这是一个问题,因为我的PDF中的所有表都用空格分隔!

目前,我在想,我需要花费大量的时间来开发一个机器学习解决方案来从PDF中识别表结构。因此,任何替代方法都将是非常受欢迎的!

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-02-17 01:00:13

你一定要看看我的答案:

还可以查看其中包含的所有链接。

表格/表格是当前用于PDF抓取的最佳表格提取工具。

票数 41
EN

Stack Overflow用户

发布于 2017-08-20 22:20:55

经过几个小时卓有成效的探索,OCR库,包围盒和聚类算法-我找到了一个非常简单的解决方案,让你想哭!

我希望你正在使用Linux;

pdftotext -layout NAME_OF_PDF.pdf

太棒了!

现在你有了一个很好的文本文件,所有的信息都排列在漂亮的列中,现在把它格式化成csv等就很简单了。

正是在这样的时候,我喜欢Linux,这些家伙想出了令人惊奇的解决方案,并把它免费!

票数 49
EN

Stack Overflow用户

发布于 2017-04-22 10:38:40

我只想补充一下Kurt给出的非常有帮助的答案--现在有一个用于Tabula的Python包装器,到目前为止,它似乎运行得很好:https://github.com/chezou/tabula-py

这将将您的PDF表转换为Pandas数据框架。你也可以在x,y坐标中设置区域,这对于不规则数据来说显然非常方便。

票数 18
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28532770

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档