我最近通过adobe将20pdf合并为1pdf。我已经用这段代码在python中导入了pdf。
from PyPDF2 import PdfFileReader, PdfFileWriter
pdf_file = open ('/Users/cj/Desktop/PEI.pdf','rb')
newfile=open('rjtjj.txt','w')
pdf_reader= PdfFileReader (pdf_file)
pdf_writer= PdfFileWriter()
print(pdf_reader.numPages)
n=pdf_reader.getNumPages()
for i in range(0, n-1):
# pdf_writer.addPage(pdf_reader.getPage(i))
gft=pdf_reader.getPage(i)
newfile.write(gft.extractText())
pdf_file.close()
newfile.close()我正试着用Vadersentiment来分析pdf。我想要做的是单独分析合并成1的20个pdf。
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
analyzer = SentimentIntensityAnalyzer()
with open('rjtjj.txt', 'r') as f:
for line in f.read().split("\n"):
vs=analyzer.polarity_scores(line)我知道我的代码是错误的,因为它只给了我整个pdf的第一行。我是个新手,非常感谢你的帮助。谢谢
发布于 2018-11-23 06:21:24
您的问题实际上不是Vader情感分析--而是从PDF中正确提取文本。
Postscript的第四个解释器是图灵完全的,所以一些PDF文档“很难”解析。您没有发布您的PDF,所以我们只能猜测问题。您可以尝试使用poppler的pdftotext命令行实用程序。Ubuntu把这个包叫做"poppler-utils";在mac上,你可以使用brew install poppler。通过pdf2ps和ps2ascii运行有时会提供不同的、有帮助的结果。
如果您仍然难以从PDF中检索到正确的文本,您可能需要联系PDF的制作者,并决定以修订后的格式提供相同的信息。
https://stackoverflow.com/questions/53432554
复制相似问题