我发现这个讨论朴素贝叶斯分类的视频非常有用。我注意到他计算的是文档为正的概率,而不是单词为正的概率。这是正确的吗?评论中指出了这一点,但到目前为止作者还没有做出回应。
https://www.youtube.com/watch?v=EGKeC2S44Rs
编辑:我刚刚发现这篇文档讨论了同样的方法。
http://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-text-classification-1.html
我的新问题是,如果训练数据是50/50呢?有没有一个理想的比例可以使用?
发布于 2016-05-21 08:05:12
其目的是将整个文档分类为正面或负面(两类)。存在或不存在的单词-以及特定的单词-会影响计算,但它们不是计算的目标。
https://stackoverflow.com/questions/37357392
复制相似问题