首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >pdfplumber可以为我扫描的pdf提取表格吗?

pdfplumber可以为我扫描的pdf提取表格吗?
EN

Stack Overflow用户
提问于 2021-11-18 14:50:09
回答 1查看 180关注 0票数 0

(我知道pdfplumber主要是针对计算机生成的PDF。然而,在我花几天时间从扫描的PDF文件中手动输入数据之前,我想我应该问问pdfplumber是否能以某种方式帮助我。)

我的问题是:

我已经扫描了历史书籍中的PDF文件。

示例:Data from statistical yearbook

现在,我正在尝试从扫描的PDF中提取表格(示例中右下角的表格)。

我第一次用pdfplumber解压表格的尝试没有成功。

例如:

代码语言:javascript
复制
with pdfplumber.open('test.pdf') as pdf:
page = pdf.pages[0]
tables = page.extract_tables()
print(tables)

返回的None

我是否有希望在非手动的情况下提取这种数据?或者我应该忍气吞声?

提前感谢您的帮助或建议!

EN

回答 1

Stack Overflow用户

发布于 2021-11-18 14:55:37

不,扫描的pdf文件里面实际上包含了一张图片。您可以阅读如下所示的图像,但这并不能帮助您获取数据。你可以使用一些可以分析图像的工具来获得数据,但这是一个不同的故事。

代码语言:javascript
复制
from pikepdf import Pdf, PdfImage

filename = "sample-in.pdf"
example = Pdf.open(filename)

for i, page in enumerate(example.pages):
    for j, (name, raw_image) in enumerate(page.images.items()):
        image = PdfImage(raw_image)
        out = image.extract_to(fileprefix=f"{filename}-page{i:03}-img{j:03}")

此外,如果必须获取该数据,此question还可以帮助您了解要使用什么以及如何使用

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70021915

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档