首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何强制pdfplumber根据上面行的列数提取表格?

如何强制pdfplumber根据上面行的列数提取表格?
EN

Stack Overflow用户
提问于 2019-10-09 23:00:14
回答 2查看 3.2K关注 0票数 0

我正在尝试用python包pdfplumber从PDF文档中提取一个表。该表有四列和多行。第一行是标题,第二行只有一个合并的单元格,然后值被正常保存(例如) pdfplumber能够检索表格,但如果有四列,它会生成6列,并根据列保存值。

Table as shown in PDF document

我尝试使用不同的表格设置,包括“垂直策略”:“线”,但这产生了相同的结果。

代码语言:javascript
复制
# Python 2.7.16   
import pandas as pd
import pdfplumber

path = 'file_path'
pdf = pdfplumber.open(path) 
first_page = pdf.pages[7]
df5 = pd.DataFrame(first_page.extract_table())

获取6列,而不是4列,值在错误的列中。输出示例:

Table as output in jupyter notebooks

如果有人有任何建议,我将很高兴听到解决方案。

EN

回答 2

Stack Overflow用户

发布于 2019-10-22 12:16:01

你得到我想要替换\n列中的文本的答案了吗?

票数 0
EN

Stack Overflow用户

发布于 2020-07-15 20:27:12

这并不是您想要的结果,但是您可以将op加载到一个dataframe中,并使用第一行中的非null值作为另一个dataframe的列名对其进行迭代。之后,您可以简单地整理输出数据框中2个列名列之间的所有数据,并在合并这些单元格后将其插入到新的数据框中。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58307045

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档