正如在camelot中提到的,我们可以从特定区域提取表,例如:
tables = camelot.read_pdf('table_regions.pdf', table_regions=['170,370,560,270'])但是我怎样才能为我的pdf找到这些区域。
发布于 2019-09-20 18:40:21
发布于 2020-09-29 18:00:48
我知道这是一个迟来的回复--但我只是想到了一个可能的解决方案。
如果您正在寻找一种自动提取方法,您可以在第一步中使用lattice,使用tables[0]._bbox检索表边界,并在第二个调用中使用这些数字来camelot.read_pdf()到参数table_areas中。
请注意,对于bbox,它们的排序格式很奇怪。
https://stackoverflow.com/questions/58025146
复制相似问题