我试图预测罕见的事件,意味着不到1%的阳性病例。我基本上试着预测一个主题是否会有0,1,2.,6,>6的失败(在所有这些类别中都有)。
我尝试过几种算法:
在任何情况下,学习要么没有失败,要么有太多的差异(导致在C.V.集上的错误结论)。
你知道哪些机器学习算法更适合于罕见的事件吗?
或者,我使用这些算法得到了这些糟糕的结果,这是否令人惊讶,这意味着我的特性列表不是很好?
非常感谢。
发布于 2015-10-29 19:21:27
当您有一个不平衡的数据集时,该算法将对每个数据点的成功进行加权,这意味着多数类的重要性要比少数类重要得多。典型的解决方案是对多数类进行抽样,直到其大小与少数类相同,而另一种(类似的)解决方案是调整成本函数,以使少数类得到适当的加权。
有关更多信息,请参见这些类似的问题:
https://datascience.stackexchange.com/questions/8646
复制相似问题