首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用PDFMiner处理单页

使用PDFMiner处理单页
EN

Stack Overflow用户
提问于 2016-03-08 13:45:33
回答 1查看 2.3K关注 0票数 1

我有一些PDF文档,不能用PyPDF提取文本,只能用PDFMiner提取文本。下面的代码可以很好地从PDF中提取所有文本,它遍历整个文档,然后返回所有文本。是否有一种方法只处理PDF的某些页面?我所有的PDF都是2000-3000长的,我只需要处理第二页。

代码语言:javascript
复制
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
         interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-08 14:37:50

在迭代所有页面时,您不能使用enumerate获取页面号和页面内容吗?如果你只想每隔一页,使用模数。如果只想要特定的页面,请使用范围。

示例:

代码语言:javascript
复制
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for pagenumber, page in enumerate(PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True)):
        print pagenumber
        if pagenumber % 2 == 0:
            print("even page number")
            interpreter.process_page(page)
        else:
            print("odd page number")
        if 5 <= pagenumber <= 10:
            print("pages 5 to 10")

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35869090

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档