我正在研究异常/离群点/欺诈检测,我正在寻找最佳做法,对不平衡数据的合成数据进行预处理。我检查了标准化/标准化的所有方法,这些方法对异常值的存在不敏感,适合本案例研究。根据科学知识-学习0.24.2关于不同标度对异常值数据影响的比较的研究,有人指出这里:
如果集合中存在一些异常值,则稳健的定标器或变压器更合适。
我使用的是CTU-13数据集,您可以在dataset 这里中看到其分布的概述。
关于数据集的合成性质,我需要对某些特征/列使用分类编码来将它们转换为基于表示的学习模型的数值(例如,使用图像形式的数据作为学习算法(如CNN )的输入。请查看这个纸中的参考文献:图6 )。
我的问题是:在预处理阶段,对于不平衡数据的异常/离群/欺诈检测,在预处理阶段,我可以使用哪种最适合我的研究案例、异常/异常/欺诈检测的最佳归一化方法来建立稳健的孤立点检测模型或二进制分类器?
任何帮助/更新在这个概念的最先进的国家将不胜感激!
发布于 2021-05-30 15:29:08
虽然有点牵强,但是,如果你在寻找欺诈,也许值得检查一下有奇怪的数字模式的值,比如999999000000.00,遵循本福德定律的想法。也许这是一个分数,可以增加你的因素。
https://datascience.stackexchange.com/questions/95036
复制相似问题