我正在尝试用python包pdfplumber从PDF文档中提取一个表。该表有四列和多行。第一行是标题,第二行只有一个合并的单元格,然后值被正常保存(例如) pdfplumber能够检索表格,但如果有四列,它会生成6列,并根据列保存值。
Table as shown in PDF document

我尝试使用不同的表格设置,包括“垂直策略”:“线”,但这产生了相同的结果。
# Python 2.7.16
import pandas as pd
import pdfplumber
path = 'file_path'
pdf = pdfplumber.open(path)
first_page = pdf.pages[7]
df5 = pd.DataFrame(first_page.extract_table())获取6列,而不是4列,值在错误的列中。输出示例:
Table as output in jupyter notebooks
如果有人有任何建议,我将很高兴听到解决方案。
发布于 2019-10-22 12:16:01
你得到我想要替换\n列中的文本的答案了吗?
发布于 2020-07-15 20:27:12
这并不是您想要的结果,但是您可以将op加载到一个dataframe中,并使用第一行中的非null值作为另一个dataframe的列名对其进行迭代。之后,您可以简单地整理输出数据框中2个列名列之间的所有数据,并在合并这些单元格后将其插入到新的数据框中。
https://stackoverflow.com/questions/58307045
复制相似问题