首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用python-camelot获取表格坐标?

如何使用python-camelot获取表格坐标?
EN

Stack Overflow用户
提问于 2019-09-19 19:59:56
回答 1查看 2.5K关注 0票数 3

我试图解析一些pdf文件,以便提取一些关键的information.There是在每个pdf中包含这些信息的一部分的表的数量。因此,我尝试使用camelot来提取表,并获得了很好的结果,但我希望提取每个表的标题,因为我希望为每个表与其标题进行映射。因此,我尝试使用tables[i]._bbox获取每个表的坐标,然后向这些坐标添加一些边距,以检测表标题的区域(它可以在表的顶部、左侧或底部),如下图所示:title of table on the left

title of the table on the top

谁能告诉我如何使用python从pdf中获取包含table标题的红色区域的坐标?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-23 17:57:07

您可以直接创建PDF解析器。例如,对于Lattice

代码语言:javascript
复制
parser = Lattice(**kwargs)
for p in pages:
    t = parser.extract_tables(p, suppress_stdout=suppress_stdout,
                                          layout_kwargs=layout_kwargs)
    tables.extend(t)

然后,您可以访问包含页面中所有组件的parser.layout。这些组件都有bbox (x0, y0, x1, y1),提取的表也有一个bbox对象。您可以找到离表格最近的组件,并提取其文本和坐标。如果您不想更改在camelot中调用表提取的方式,您可以再次解析PDF:

代码语言:javascript
复制
from camelot import utils
layout, dim = utils.get_page_layout(file_name)
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58010550

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档