首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在脚本中使用PyPDF2?

如何在脚本中使用PyPDF2?
EN

Stack Overflow用户
提问于 2022-05-27 16:35:19
回答 1查看 152关注 0票数 0
代码语言:javascript
复制
import PyPDF2
from PyDF2 import PdfFileReader, PdfFileWriter


file_path="sample.pdf"

pdf = PdfFileReader(file_path)


with open("sample.pdf", "w") as f:'

for page_num in range(pdf.numPages):
   
   pageObj = pdf.getPage(page_num)



   try:
       txt = pageObj.extractText()
       txt = DocumentInformation.author

   except:
       pass

   else:

       f.write(txt)
f.close()

收到错误: ModuleNotFoundError:没有名为“PyPDF2”的模块

编写我想要在PDF中扫描的第一个脚本,然后提取文本并将其写入txt文件。我试图使用pyPDF2,但我不知道如何在这样的脚本中使用它。

编辑:我成功地导入了这样的os & sys。

代码语言:javascript
复制
import os
import sys
EN

回答 1

Stack Overflow用户

发布于 2022-06-01 20:26:42

有多个问题:

  1. from PyDF2 import ...:一个错误。你指的是PyPDF2而不是PyDF2
  2. PdfFileWriter是导入的,但从未使用过(附带说明:它是最新版本的PyPDF2中的PdfReader和PdfWriter )
  3. with open("sample.pdf", "w") as f:':语法错误
  4. 缺少下一行的缩进
  5. 备注:您知道您可以简单地编写for page in pdf.pages吗?
  6. DocumentInformation.author错了。我猜你是说pdf.metadata.author
  7. 您重写了txt变量--我不明白为什么在重新分配之前不使用它。

也许这就是你想要的

代码语言:javascript
复制
from PyPDF2 import PdfReader

def get_text(pdf_file_path: str) -> str:
    text = ""
    reader = PdfReader(pdf_file_path)
    for page in reader.pages:
        text += page.extract_text()
    return text


text = get_text("example.pdf")

with open("example.txt", "w") as f:
    f.write(text)

安装问题

如果您有安装问题,也许安装PyPDF2的文档可以帮助您吗?

如果以python your_script_name.py的形式在控制台中执行脚本,则可能需要检查

代码语言:javascript
复制
python -c "import PyPDF2; print(PyPDF2.__version__)"

这应该会显示您的PyPDF2版本。如果没有,您使用的Python环境没有安装PyPDF2。请注意,您的系统可能具有任意的许多Python环境。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72408533

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档