(我知道pdfplumber主要是针对计算机生成的PDF。然而,在我花几天时间从扫描的PDF文件中手动输入数据之前,我想我应该问问pdfplumber是否能以某种方式帮助我。)
我的问题是:
我已经扫描了历史书籍中的PDF文件。
示例:Data from statistical yearbook
现在,我正在尝试从扫描的PDF中提取表格(示例中右下角的表格)。
我第一次用pdfplumber解压表格的尝试没有成功。
例如:
with pdfplumber.open('test.pdf') as pdf:
page = pdf.pages[0]
tables = page.extract_tables()
print(tables)返回的None
我是否有希望在非手动的情况下提取这种数据?或者我应该忍气吞声?
提前感谢您的帮助或建议!
发布于 2021-11-18 14:55:37
不,扫描的pdf文件里面实际上包含了一张图片。您可以阅读如下所示的图像,但这并不能帮助您获取数据。你可以使用一些可以分析图像的工具来获得数据,但这是一个不同的故事。
from pikepdf import Pdf, PdfImage
filename = "sample-in.pdf"
example = Pdf.open(filename)
for i, page in enumerate(example.pages):
for j, (name, raw_image) in enumerate(page.images.items()):
image = PdfImage(raw_image)
out = image.extract_to(fileprefix=f"{filename}-page{i:03}-img{j:03}")此外,如果必须获取该数据,此question还可以帮助您了解要使用什么以及如何使用
https://stackoverflow.com/questions/70021915
复制相似问题