首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用tabula-py为什么我会得到一个列表而不是Dataframe?

使用tabula-py为什么我会得到一个列表而不是Dataframe?
EN

Stack Overflow用户
提问于 2021-02-04 00:50:33
回答 2查看 3.3K关注 0票数 4

输出

我想处理PDF文件,特别是表格。我编码这个

代码语言:javascript
复制
import pandas as pd
import numpy as np
import tabula
from tabula import read_pdf
tab= tabula.read_pdf('..\PDFs\Ala.pdf',encoding='latin-1', pages ='all')
tab

但是我得到了一个价值列表,如下所示:

代码语言:javascript
复制
[    Nombres  Edad Ciudad
0    Noelia    20   Lima
1  Michelie    45   Lima
2    Ximena    18   Lima
3    Miguel    43   Lima]

我不能分析它死了它不是一个数据框架。这只是一个示例,真正的PDF文件包含文本和几个页面之间的表。

有谁能帮我解决这个问题吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-02-07 10:16:03

tabula应该返回一个Pandas列表,每个表在PDF中都有一个。您可以按以下方式显示(并与它们一起工作):

代码语言:javascript
复制
import pandas as pd
import numpy as np
import tabula
from tabula import read_pdf

dfs = tabula.read_pdf('..\PDFs\Ala.pdf', encoding='latin-1', pages='all')
print(f"Found {len(dfs)} tables")

# display each of the dataframes
for df in dfs:
    print(df.size)
    print(df)
票数 3
EN

Stack Overflow用户

发布于 2022-08-20 09:13:39

tabula返回Pandas DataFrame的列表。但是我们可以使用下面的语句将这个列表转换为Pandas DataFrame。

代码语言:javascript
复制
import tabula
import pandas

tab = pandas.DataFrame(tabula.read_pdf('..\PDFs\Ala.pdf', pages ='all')[0])
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66037880

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档