首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >罕见事件的预测分析

罕见事件的预测分析
EN

Data Science用户
提问于 2015-10-29 12:42:35
回答 1查看 4.1K关注 0票数 5

我试图预测罕见的事件,意味着不到1%的阳性病例。我基本上试着预测一个主题是否会有0,1,2.,6,>6的失败(在所有这些类别中都有)。

我尝试过几种算法:

  • 决策树
  • 随机林
  • 阿达博斯特
  • 使用k-均值聚类进行分组,并发现与故障的关联(哪个组的故障最多)

在任何情况下,学习要么没有失败,要么有太多的差异(导致在C.V.集上的错误结论)。

你知道哪些机器学习算法更适合于罕见的事件吗?

或者,我使用这些算法得到了这些糟糕的结果,这是否令人惊讶,这意味着我的特性列表不是很好?

非常感谢。

EN

回答 1

Data Science用户

回答已采纳

发布于 2015-10-29 19:21:27

当您有一个不平衡的数据集时,该算法将对每个数据点的成功进行加权,这意味着多数类的重要性要比少数类重要得多。典型的解决方案是对多数类进行抽样,直到其大小与少数类相同,而另一种(类似的)解决方案是调整成本函数,以使少数类得到适当的加权。

有关更多信息,请参见这些类似的问题:

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/8646

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档