Count of Fraud100-500 610 3其次,我还需要欺诈金额的总和(其中欺诈= 1)和欺诈的计数。我需要左连接以获得欺诈列来计算它。 例如,类别0-100,金额的总和是120 (50+70),计数是2。欺诈金额的总和是70,其中欺诈是1。表a ID Amount Date
1 110 0
我正在玩一个信用欺诈检测数据集在Kaggle。包含约0.1%欺诈交易的不平衡数据集。这些特性是由+ time & txn量完成的PCA练习中的28台PC,以及用于合法/欺诈txn的类变量0/1。然而,我发现个人电脑在欺诈案件中仍然是相关的(如果你将数据集分解成合法/欺诈案件)。对于使用朴素贝叶斯分类器进行欺诈检测,什么是最好的方法来最小化这种影响?然而,我似乎并不认为删除离群点是一个明智的选择,因为欺诈本身可能是一个离群点。在不删除