发布于 2015-02-17 01:00:13
发布于 2017-08-20 22:20:55
经过几个小时卓有成效的探索,OCR库,包围盒和聚类算法-我找到了一个非常简单的解决方案,让你想哭!
我希望你正在使用Linux;
pdftotext -layout NAME_OF_PDF.pdf
太棒了!
现在你有了一个很好的文本文件,所有的信息都排列在漂亮的列中,现在把它格式化成csv等就很简单了。
正是在这样的时候,我喜欢Linux,这些家伙想出了令人惊奇的解决方案,并把它免费!
发布于 2017-04-22 10:38:40
我只想补充一下Kurt给出的非常有帮助的答案--现在有一个用于Tabula的Python包装器,到目前为止,它似乎运行得很好:https://github.com/chezou/tabula-py。
这将将您的PDF表转换为Pandas数据框架。你也可以在x,y坐标中设置区域,这对于不规则数据来说显然非常方便。
https://stackoverflow.com/questions/28532770
复制相似问题