我想分类和分析章节和章节从一本书PDF格式。因此,计算单词的数量,并检查哪个单词发生的频率和在哪一章。
pip install PyPDF2
import PyPDF2
from PyPDF2 import PdfFileReader
# Creating a pdf file object
pdf = open('C:/Users/Dominik/Desktop/bsc/pdf1.pdf',"rb")
# creating pdf reader object
pdf_reader = PyPDF2.PdfFileReader(pdf)
# checking number of pages in a pdf file
print(pdf_reader.numPages)
print(pdf_reader.getDocumentInfo())
# creating a page object
page = pdf_reader.getPage(0)
# finally extracting text from the page
print(page.extractText())
# Extracting entire PDF
for i in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(i)
a = str(1+pdf_reader.getPageNumber(page))
print (a)
page_content = page.extractText()
print (page_content)
# closing the pdf file
pdf.close()这段代码已经起作用了。现在我想做更多的分析,比如
发布于 2019-08-10 15:05:08
我在PDF格式的简历中尝试了类似的方法。但我只知道以下几点:
PDF是一种非结构化格式。不可能以结构化的方式从所有PDF中提取信息。但是,如果你知道PDF格式的书籍的结构,你可以使用它们独特的身份来划分章节的标题,比如它们是用粗体或意大利格式写的。This link可以帮助您提取这些信息。然后,您可以遍历这一章,直到它到达下一章标题。
https://stackoverflow.com/questions/57443019
复制相似问题