首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >表未被识别

表未被识别
EN

Stack Overflow用户
提问于 2019-02-28 23:39:09
回答 1查看 691关注 0票数 0
代码语言:javascript
复制
import pandas as pd
from tabula import read_pdf
FileName="Filepath"
DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True)
print DF3

import pandas as pd
import camelot
FileName="Filepath"
tables = camelot.read_pdf(FileName,pages='1-end')
print tables

我无法读取PDF文件中的表格作为数据帧使用表格,如果表格分布在多个页面上,并且水平边框被剪切,因此它不被识别为表格。我该如何解决这个问题?我可以只使用垂直线来检测表格吗?

也尝试了新的包camelot,但再次无法阅读该专栏。

我只能检测到示例pdf中的一个表没有检测到2x2表

示例pdf链接:https://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85

EN

回答 1

Stack Overflow用户

发布于 2019-10-12 22:17:15

到目前为止,Camelot还没有实现合并多页表格。我的建议是将表提取为数据帧,并手动将它们与pd.concat合并。

你也可以试试Tabula。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54929303

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档