我已经通过为我的3类问题绘制相应的学习曲线,比较了NLTK和Scikits中两种朴素贝叶斯实现的性能(伯努利版本,类先验并不重要,因为我为每个类使用了完全相同数量的训练示例)。X轴是训练数据集大小(忽略实际值),Y轴是精度。Here is我得到了什么。
造成这种性能差异的原因是什么?
发布于 2013-01-31 18:12:59
NLTK没有实现Bernoulli朴素贝叶斯。相反,它的NaiveBayesClassifier将多项NB决策规则与布尔特征一起使用。
虽然这种多项式和伯努利NB部分的组合实际上有时是推荐的(例如,由Jurafsky and Manning用于情感分析),但它通常代表了两个世界中最糟糕的情况,并且最有可能是错误的结果。
https://stackoverflow.com/questions/14617326
复制相似问题