我正在使用一个数据集来预测一个人是否患有糖尿病。如果在我的数据集中,糖尿病的负面观察数量是正面的10倍,是不是已经给出了我的贝叶斯只会学习和预测负面的,因为它比其他的有更多的观察?
发布于 2013-07-12 21:53:03
假设你之前的结果概率是: P(not_diabetic) = 0.9,P(糖尿病)= 0.1。
这是一个不平衡训练集的例子,会对学习者的行为产生不利影响。在你的病例中,将P(糖尿病)>0.5的病例归类为糖尿病,其余的归为Non_diabetic不会给出好的结果。
在验证分类器时,需要使用一种考虑训练集的不平衡先验对后验概率的影响的方法,例如Bayesian information Reward。
您可以查看此paper,了解有关不平衡训练集对贝叶斯分类器的影响的一般讨论。
https://stackoverflow.com/questions/16587107
复制相似问题