我的任务是将未见过的影评分为正面影评和负面影评。我有两个文件夹,neg和pos,每个文件夹包含1000个文件,这些文件是已经分类的电影评论。
到目前为止,我所做的是加载正面评论,并将每个单词以及每个单词出现的频率存储在字典中。然后,我将每个词频除以正文件夹文件中的总词数。我对负片文件夹也做了同样的事情。
我现在被困在了下一步该去哪里。最后,我将不得不加载一个看不见的评论,并确定评论是正面的还是负面的。我不寻找任何代码,只是指导我需要做下一步来实现这一点。任何帮助都非常感谢,谢谢!
发布于 2016-11-06 21:40:14
发布于 2016-11-06 22:24:46
这里最好的指导可能是Udacity ML课程……他们使用优秀的scikit-learn库来使用朴素贝叶斯对电子邮件进行分类,特别是NB的高斯特征;这听起来与您遇到的问题完全相同:
https://www.udacity.com/course/intro-to-machine-learning--ud120
如果您已经熟悉了这些概念,并且很乐意使用SK-learn,那么可以直接跳转到这里的文档:
http://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes
一旦你有了正确形式的数据,用SK-learn拟合模型然后做出预测实际上是微不足道的。
https://stackoverflow.com/questions/40449877
复制相似问题