使用Camelot-py从.PDF抓取表数据,但它不会拾取堆叠的文本行(请参阅下面的第9行和第10行)

Rows 9 and 10 are void of text for account.
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-areas
这是我有的.ipynb格式的代码。第一个块用于按预期拉取的第一个表,第二个块用于第9页。
表格
tables= camelot.read_pdf(r'C:\PDFFilePath', pages='9', line_scale=40)
tables[0].to_csv(r'Loans&Leases')
camelot.plot(tables[0], kind ='contour')
plt.show()使用MatPlotLib,我可以看到Camelot正确地检测到了第9页的表格区域/网格。
这是指向PDF的Google Drive链接
任何见解都将不胜感激。
发布于 2020-03-12 16:44:23
您的代码是正确的。
如果您尝试键入tables[0].df,则会出现以下输出,这是正确的:

因此,在导出到CSV时,您的问题是第10行和第11行中的换行符(\n)。
解决方案可以是以下代码:
tables= camelot.read_pdf(r'C:\PDFFilePath', pages='9', line_scale=40, strip_text='\n')
使用strip_text,您可以去掉不需要的字符(请参阅official documentation)。
现在,如果将表导出为CSV,则会得到:

https://stackoverflow.com/questions/60644797
复制相似问题