首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我如何分类一个pdf文件的章节和分析每一章的内容?

我如何分类一个pdf文件的章节和分析每一章的内容?
EN

Stack Overflow用户
提问于 2019-08-10 14:31:58
回答 1查看 1.6K关注 0票数 1

我想分类和分析章节和章节从一本书PDF格式。因此,计算单词的数量,并检查哪个单词发生的频率和在哪一章。

pip install PyPDF2

代码语言:javascript
复制
import PyPDF2
from PyPDF2 import PdfFileReader

# Creating a pdf file object
pdf = open('C:/Users/Dominik/Desktop/bsc/pdf1.pdf',"rb")
# creating pdf reader object
pdf_reader = PyPDF2.PdfFileReader(pdf)
# checking number of pages in a pdf file
print(pdf_reader.numPages)
print(pdf_reader.getDocumentInfo())
# creating a page object
page = pdf_reader.getPage(0)
# finally extracting text from the page
print(page.extractText())
# Extracting entire PDF
for i in range(pdf_reader.getNumPages()):
   page = pdf_reader.getPage(i)
   a = str(1+pdf_reader.getPageNumber(page))
   print (a)
   page_content = page.extractText()
   print (page_content)
# closing the pdf file
pdf.close()

这段代码已经起作用了。现在我想做更多的分析,比如

  1. 将每个章节存储在自己的变量中,并计算单词数。最后,所有的东西都应该存储在excel文件中。
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-10 15:05:08

我在PDF格式的简历中尝试了类似的方法。但我只知道以下几点:

PDF是一种非结构化格式。不可能以结构化的方式从所有PDF中提取信息。但是,如果你知道PDF格式的书籍的结构,你可以使用它们独特的身份来划分章节的标题,比如它们是用粗体或意大利格式写的。This link可以帮助您提取这些信息。然后,您可以遍历这一章,直到它到达下一章标题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57443019

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档