问Vader与多个PDF的情感
EN

Stack Overflow用户

提问于 2018-11-22 21:55:55

回答 1查看 40关注 0票数 0

我最近通过adobe将20pdf合并为1pdf。我已经用这段代码在python中导入了pdf。

from PyPDF2 import PdfFileReader, PdfFileWriter
pdf_file = open ('/Users/cj/Desktop/PEI.pdf','rb')
newfile=open('rjtjj.txt','w')
pdf_reader= PdfFileReader (pdf_file)
pdf_writer= PdfFileWriter()
print(pdf_reader.numPages) 
n=pdf_reader.getNumPages()
for i in range(0, n-1):    
# pdf_writer.addPage(pdf_reader.getPage(i))
gft=pdf_reader.getPage(i)
newfile.write(gft.extractText())
pdf_file.close()
newfile.close()

我正试着用Vadersentiment来分析pdf。我想要做的是单独分析合并成1的20个pdf。

from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
analyzer = SentimentIntensityAnalyzer()
with open('rjtjj.txt', 'r') as f:
for line in f.read().split("\n"):
vs=analyzer.polarity_scores(line)

我知道我的代码是错误的，因为它只给了我整个pdf的第一行。我是个新手，非常感谢你的帮助。谢谢

python-3.x

回答 1

Stack Overflow用户

发布于 2018-11-23 06:21:24

您的问题实际上不是Vader情感分析--而是从PDF中正确提取文本。

Postscript的第四个解释器是图灵完全的，所以一些PDF文档“很难”解析。您没有发布您的PDF，所以我们只能猜测问题。您可以尝试使用poppler的pdftotext命令行实用程序。Ubuntu把这个包叫做"poppler-utils"；在mac上，你可以使用brew install poppler。通过pdf2ps和ps2ascii运行有时会提供不同的、有帮助的结果。

如果您仍然难以从PDF中检索到正确的文本，您可能需要联系PDF的制作者，并决定以修订后的格式提供相同的信息。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53432554

复制

相似问题

问Vader与多个PDF的情感
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Vader与多个PDF的情感EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Vader与多个PDF的情感
EN