首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Vader与多个PDF的情感

Vader与多个PDF的情感
EN

Stack Overflow用户
提问于 2018-11-22 21:55:55
回答 1查看 40关注 0票数 0

我最近通过adobe将20pdf合并为1pdf。我已经用这段代码在python中导入了pdf。

代码语言:javascript
复制
from PyPDF2 import PdfFileReader, PdfFileWriter
pdf_file = open ('/Users/cj/Desktop/PEI.pdf','rb')
newfile=open('rjtjj.txt','w')
pdf_reader= PdfFileReader (pdf_file)
pdf_writer= PdfFileWriter()
print(pdf_reader.numPages) 
n=pdf_reader.getNumPages()
for i in range(0, n-1):    
# pdf_writer.addPage(pdf_reader.getPage(i))
gft=pdf_reader.getPage(i)
newfile.write(gft.extractText())
pdf_file.close()
newfile.close()

我正试着用Vadersentiment来分析pdf。我想要做的是单独分析合并成1的20个pdf。

代码语言:javascript
复制
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
analyzer = SentimentIntensityAnalyzer()
with open('rjtjj.txt', 'r') as f:
for line in f.read().split("\n"):
vs=analyzer.polarity_scores(line)

我知道我的代码是错误的,因为它只给了我整个pdf的第一行。我是个新手,非常感谢你的帮助。谢谢

EN

回答 1

Stack Overflow用户

发布于 2018-11-23 06:21:24

您的问题实际上不是Vader情感分析--而是从PDF中正确提取文本。

Postscript的第四个解释器是图灵完全的,所以一些PDF文档“很难”解析。您没有发布您的PDF,所以我们只能猜测问题。您可以尝试使用poppler的pdftotext命令行实用程序。Ubuntu把这个包叫做"poppler-utils";在mac上,你可以使用brew install poppler。通过pdf2ps和ps2ascii运行有时会提供不同的、有帮助的结果。

如果您仍然难以从PDF中检索到正确的文本,您可能需要联系PDF的制作者,并决定以修订后的格式提供相同的信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53432554

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档