我有一个数据集我需要在那里发现欺诈。99%不是欺诈,1%是欺诈。
在类不平衡的情况下,可以使用什么方法来解决问题?
发布于 2017-11-19 03:48:51
有两种技术:
你需要使用这些技术的原因是,如果我们不使用,那么模型的准确性就会很高--它将能够以99%的准确率正确地预测那些不是欺诈的案件,而我们不想这样做。如果它能同样准确地预测出欺诈行为,那么这是一个伟大的洞察力。这只能通过使用上述任何一种技术来实现。
请看一看,如果你还有其他问题,请告诉我。
发布于 2018-05-12 18:03:30
您可以按照这两种方法进行操作。
发布于 2019-02-27 12:48:34
您可以在所有类型的算法中使用一些相关参数,如成本函数,如Kappa、CEN和MCEN。
免责声明:
如果您正在使用Python,则可以使用PyCM模块。该模块在接收到数据的混淆矩阵后,可以根据数据集的特点,提出适合于评估算法的参数。
下面是从这个模块获取推荐参数的简单代码:
>>> from pycm import *
>>> cm = ConfusionMatrix(matrix={"Class1": {"Class1": 1, "Class2":2}, "Class2": {"Class1": 0, "Class2": 5}})
>>> print(cm.recommended_list)
["Kappa", "SOA1(Landis & Koch)", "SOA2(Fleiss)", "SOA3(Altman)", "SOA4(Cicchetti)", "CEN", "MCEN", "MCC", "J", "Overall J", "Overall MCC", "Overall CEN", "Overall MCEN", "AUC", "AUCI", "G", "DP", "DPI", "GI"]https://datascience.stackexchange.com/questions/24905
复制相似问题