首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在python中提取PDF中的所有表

在python中提取PDF中的所有表
EN

Stack Overflow用户
提问于 2018-09-07 17:06:55
回答 2查看 2.4K关注 0票数 3

我有一个PDF,并想从该PDF中提取所有表格。当我运行下面的代码时,我得到了一个空列表。

代码语言:javascript
复制
import pdftables

filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
with open(filepath, 'rb') as fh:
    table = pdftables.get_tables(fh)
print(table)
EN

回答 2

Stack Overflow用户

发布于 2018-09-07 17:14:21

我假设PDF有多个页面?这应该是可行的:

代码语言:javascript
复制
from pdftables.pdf_document import PDFDocument
from pdftables.pdftables import page_to_tables

filepath = ...
page_number = ...
with open(filepath, 'rb') as file_object:
    pdf_doc = PDFDocument.from_fileobj(file_object)
    pdf_page = pdf_doc.get_page(pagenumber) 
    tables = page_to_tables(pdf_page)
    print(tables)

您也可以遍历多个页面:

代码语言:javascript
复制
for page_number, page in enumerate(pdf_doc.get_pages()):
    tables = page_to_tables(page)
    print(tables)
票数 2
EN

Stack Overflow用户

发布于 2021-05-18 17:31:21

#安装下面的库来使用pdf表,它对我很有效

代码语言:javascript
复制
> pip install pdftables.six
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52219133

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档