首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PyPDF2的替代方案

PyPDF2的替代方案
EN

Stack Overflow用户
提问于 2018-08-27 22:41:08
回答 1查看 501关注 0票数 0

我正在使用PyPDF2包从.pdf文件中提取文本。我得到了输出,但不是它想要的形式。我找不到问题出在哪里?

代码片段如下:

代码语言:javascript
复制
import PyPDF2
def Read(startPage, endPage):
    global text
    text = []
    cleanText = " "
    pdfFileObj = open('F:\\Pen Drive 8 GB\\PDF\\Handbooks\\book1.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    num_pages = pdfReader.numPages
    print(num_pages)
    while (startPage <= endPage):
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
            cleanText += myWord
    text = cleanText.strip().split()
    print(text)

Read(3, 3)

我现在得到的输出是作为参考的,如下所示:

任何帮助都是非常感谢的。

EN

回答 1

Stack Overflow用户

发布于 2018-08-27 22:48:37

cleanText += myWord这一行只是将所有单词连接成一个长字符串。如果您想要过滤'\n',而不是:

代码语言:javascript
复制
for myWord in text:
        if myWord != '\n':
            cleanText += myWord
    text = cleanText.strip().split()

您可以这样做:

代码语言:javascript
复制
text = [w for w in text if w != '\n']
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52041720

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档