首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Camelot-py未检测到一行中的两行文本

Camelot-py未检测到一行中的两行文本
EN

Stack Overflow用户
提问于 2020-03-12 05:43:12
回答 1查看 1.5K关注 0票数 1

使用Camelot-py从.PDF抓取表数据,但它不会拾取堆叠的文本行(请参阅下面的第9行和第10行)

Rows 9 and 10 are void of text for account.

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-areas

这是我有的.ipynb格式的代码。第一个块用于按预期拉取的第一个表,第二个块用于第9页。

表格

代码语言:javascript
复制
tables= camelot.read_pdf(r'C:\PDFFilePath', pages='9', line_scale=40)
    tables[0].to_csv(r'Loans&Leases')
    camelot.plot(tables[0], kind ='contour')
    plt.show()

使用MatPlotLib,我可以看到Camelot正确地检测到了第9页的表格区域/网格。

plot table area

plot grid

这是指向PDF的Google Drive链接

Call Report PDF

任何见解都将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2020-03-12 16:44:23

您的代码是正确的。

如果您尝试键入tables[0].df,则会出现以下输出,这是正确的:

因此,在导出到CSV时,您的问题是第10行和第11行中的换行符(\n)。

解决方案可以是以下代码:

tables= camelot.read_pdf(r'C:\PDFFilePath', pages='9', line_scale=40, strip_text='\n')

使用strip_text,您可以去掉不需要的字符(请参阅official documentation)。

现在,如果将表导出为CSV,则会得到:

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60644797

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档