文章/答案/技术大牛

发布

社区首页 >问答首页 >Tabula-py read_pdf_with_template()方法

问Tabula-py read_pdf_with_template()方法
EN

Stack Overflow用户

提问于 2021-07-19 15:16:45

回答 1查看 347关注 0票数 0

我正在尝试以表格的形式读取文档的特定部分。它的结构是表格，但单元格、行或列之间没有分隔线。

我成功地将read_pdf()方法与area和column参数一起使用。我可以精确地指定表的开始和结束位置以及列的划分位置。

但是我的pdf在每个页面上有多个不同大小的表，没有明确的标记来识别它们，我必须使用这些参数。

我在Github repo issues here中找到了read_pdf_with_template()方法，并在documentation、pull request和example notebook中找到了更多关于它的信息。

但是没有任何地方提到如何构造teamplate.json以及我可以使用哪些参数或它们的意思。

我尝试将area坐标插入到x1, y1, x2, y2中，在方法参数和height、width参数中传递列列表和表的大小。

但它拾取的是pdf的顶部中心部分，这并不等于我在反向计算所有内容时插入的任何坐标。

这是我正在尝试阅读的页面(我删除了一些敏感数据)

下面是代码片段

import tabula

tables = tabula.read_pdf_with_template(input_path = "test.pdf", template_path = "template.json", columns=[195, 310, 380])

print(tables[0])

[
    {
        "page": 1,
        "extraction_method": "stream",
        "x1": 225,
        "x2": 35,
        "y1": 375,
        "y2": 565,
        "width": 525,
        "height": 400
    }
]

python

tabula

tabula-py

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-20 13:30:01

我只是个笨蛋而已。

模板不是您手动生成的东西。它们应该是由前面提到的here的tabula应用程序生成的。

只需从official website下载tabula即可。一旦你启动了这款应用，它就变得相当简单了。手动单击并拖动每页上的每个表，然后单击顶部的下载模板按钮。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68436511

复制

相似问题

问Tabula-py read_pdf_with_template()方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tabula-py read_pdf_with_template()方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tabula-py read_pdf_with_template()方法
EN