我正在使用Camelot来阅读完整的PDF,并从每个PDF中提取约112个属性。
我使用表区来提取属性
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38, 340 ,50, 328']) 问题是,对于所有文档中的相同属性,表区域并不是恒定的。有时我会在另一个文档的x或y坐标中找到几个像素以下的相同属性。
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38,350,50,338']) 有没有一种方法可以在不考虑提取任何文档的情况下,从相同的区域获得确切的属性?
发布于 2019-01-14 19:07:11
也许选项table_regions (在0.7中引入)可以帮助您。
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions
指定table_regions时,Camelot将仅分析指定的区域以查找表。
您可以定义一个更大的table_regions区域,Camelot将在该区域中搜索表。
https://stackoverflow.com/questions/54176697
复制相似问题