编辑:能够使用KMeans聚类算法来帮助将数据标注到受监督的模型中,这是公认的做法吗?(无监督-饲料->监督)?
原因是,重新标注数百万条记录是不可能的,这是一个阶级不平衡的问题,历史上的少数民族阶级是非常有用的。
我觉得这是一个强化学习的问题,但对它还不太了解,说不出来。
如果没有上述任何一个,对于不平衡的欺诈检测模型来说,什么是好的方法?精确和召回是比精确性更好的衡量标准。
发布于 2017-01-19 08:15:06
K-意思是不会给你贴标签的。
聚类不是分类。
这是个很难解决的问题。大多数情况下,你会得到不好的结果!
因此,与其尝试自动化,不如使用集群来理解您的数据。尝试推导出一些规则来识别例如不同类型的欺诈。但千万不要假设集群都是好的(因为它们从来都不是好的)。
https://datascience.stackexchange.com/questions/16389
复制相似问题