文章/答案/技术大牛

发布

社区首页 >问答首页 >我如何分类一个pdf文件的章节和分析每一章的内容？

问我如何分类一个pdf文件的章节和分析每一章的内容？
EN

Stack Overflow用户

提问于 2019-08-10 14:31:58

回答 1查看 1.6K关注 0票数 1

我想分类和分析章节和章节从一本书PDF格式。因此，计算单词的数量，并检查哪个单词发生的频率和在哪一章。

pip install PyPDF2

import PyPDF2
from PyPDF2 import PdfFileReader

# Creating a pdf file object
pdf = open('C:/Users/Dominik/Desktop/bsc/pdf1.pdf',"rb")
# creating pdf reader object
pdf_reader = PyPDF2.PdfFileReader(pdf)
# checking number of pages in a pdf file
print(pdf_reader.numPages)
print(pdf_reader.getDocumentInfo())
# creating a page object
page = pdf_reader.getPage(0)
# finally extracting text from the page
print(page.extractText())
# Extracting entire PDF
for i in range(pdf_reader.getNumPages()):
   page = pdf_reader.getPage(i)
   a = str(1+pdf_reader.getPageNumber(page))
   print (a)
   page_content = page.extractText()
   print (page_content)
# closing the pdf file
pdf.close()

这段代码已经起作用了。现在我想做更多的分析，比如

将每个章节存储在自己的变量中，并计算单词数。最后，所有的东西都应该存储在excel文件中。

text-mining

event-log

python

python-3.x

pdf

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-10 15:05:08

我在PDF格式的简历中尝试了类似的方法。但我只知道以下几点：

PDF是一种非结构化格式。不可能以结构化的方式从所有PDF中提取信息。但是，如果你知道PDF格式的书籍的结构，你可以使用它们独特的身份来划分章节的标题，比如它们是用粗体或意大利格式写的。This link可以帮助您提取这些信息。然后，您可以遍历这一章，直到它到达下一章标题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57443019

复制

相似问题

问我如何分类一个pdf文件的章节和分析每一章的内容？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我如何分类一个pdf文件的章节和分析每一章的内容？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我如何分类一个pdf文件的章节和分析每一章的内容？
EN