我想处理PDF文件,特别是表格。我编码这个
import pandas as pd
import numpy as np
import tabula
from tabula import read_pdf
tab= tabula.read_pdf('..\PDFs\Ala.pdf',encoding='latin-1', pages ='all')
tab但是我得到了一个价值列表,如下所示:
[ Nombres Edad Ciudad
0 Noelia 20 Lima
1 Michelie 45 Lima
2 Ximena 18 Lima
3 Miguel 43 Lima]我不能分析它死了它不是一个数据框架。这只是一个示例,真正的PDF文件包含文本和几个页面之间的表。
有谁能帮我解决这个问题吗?
发布于 2021-02-07 10:16:03
tabula应该返回一个Pandas列表,每个表在PDF中都有一个。您可以按以下方式显示(并与它们一起工作):
import pandas as pd
import numpy as np
import tabula
from tabula import read_pdf
dfs = tabula.read_pdf('..\PDFs\Ala.pdf', encoding='latin-1', pages='all')
print(f"Found {len(dfs)} tables")
# display each of the dataframes
for df in dfs:
print(df.size)
print(df)发布于 2022-08-20 09:13:39
tabula返回Pandas DataFrame的列表。但是我们可以使用下面的语句将这个列表转换为Pandas DataFrame。
import tabula
import pandas
tab = pandas.DataFrame(tabula.read_pdf('..\PDFs\Ala.pdf', pages ='all')[0])https://stackoverflow.com/questions/66037880
复制相似问题