首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python-Camelot提取空表

Python-Camelot提取空表
EN

Stack Overflow用户
提问于 2019-01-02 17:52:05
回答 2查看 2.4K关注 0票数 1

我正在使用Camelot通过以下命令提取PDF的多个部分。

代码语言:javascript
复制
cgl_section = camelot.read_pdf(filename, flavor='stream', 
              table_areas=['35,490,155,483', '53,480,110,470', '117,480,155,470', 
                           '38,469,106,456', '39,454,105,445', '38,430,155,420', 
                           '38,418,77, 410'])

当PDF实际上包含这些区域中的数据时,这种方法运行得很好。但我并不期望在每个解析的PDF中都有数据,有些数据返回为空。当返回的数据不是表,并且只有一列时,我会得到以下错误。

代码语言:javascript
复制
UserWarning: No tables found in table area 1

代码语言:javascript
复制
ValueError: min() arg is an empty sequence

我需要一种方法来提取所有PDF中的这些特定区域,但忽略之后的空区域。需要能够以有序的方式使用提取的数据。

也可以接受任何其他建议

提亚

EN

回答 2

Stack Overflow用户

发布于 2019-01-08 16:34:26

也许选项table_regions (在0.7中引入)可以帮助您。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions

代码语言:javascript
复制
When table_regions is specified, Camelot will only analyze the specified regions to look for tables.
票数 0
EN

Stack Overflow用户

发布于 2020-04-16 08:01:31

我也有同样的问题!这不是一个完美的解决方案,但我相信您可以通过将可能导致空表的特定table_area调用分离到它自己的pdf_read调用中来解决这个问题。这样,您就可以按照上面的建议进行操作,只需用try_catch块围绕pdf_read即可。这会给你带来你想要的健壮性。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54004215

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档