我正在使用Camelot通过以下命令提取PDF的多个部分。实际上包含这些区域中的数据时,这种方法运行得很好。UserWarning: No tables found in table area 1 和 ValueError: min() arg is an empty sequence 我需要一种方法来提取所有PDF中的这些特定区域,但忽略之后的空区域。需要能够以有序的方式使用提取的数据。 也可以接受任何其他建议 提亚
我试图解析一些pdf文件,以便提取一些关键的information.There是在每个pdf中包含这些信息的一部分的表的数量。因此,我尝试使用camelot来提取表,并获得了很好的结果,但我希望提取每个表的标题,因为我希望为每个表与其标题进行映射。因此,我尝试使用tables[i]._bbox获取每个表的坐标,然后向这些坐标添加一些边距,以检测表标题的区域(它可以在表的顶部、左侧或底部),如下图所示:title of table on the left title of the tabl