我正在玩一个信用欺诈检测数据集在Kaggle。包含约0.1%欺诈交易的不平衡数据集。这些特性是由+ time & txn量完成的PCA练习中的28台PC,以及用于合法/欺诈txn的类变量0/1。
根据我的简要理解,在PCA过程中应该处理共线问题。然而,我发现个人电脑在欺诈案件中仍然是相关的(如果你将数据集分解成合法/欺诈案件)。对于使用朴素贝叶斯分类器进行欺诈检测,什么是最好的方法来最小化这种影响?
另一件事是,我在DS101被教导如何处理离群点。然而,我似乎并不认为删除离群点是一个明智的选择,因为欺诈本身可能是一个离群点。在不删除异常值的同时处理异常值的一些常见方法是什么?
我对数据科学相当陌生,所以欢迎对以上主题有任何好的指导。只是不像我在开场白中看到的那么清楚。
谢谢。
发布于 2018-11-16 16:08:21
在一般的机器学习算法中,如果输入大量的训练数据集,则可以同时处理孤立点和多重共线性。主成分分析( PCA )是一种降维技术,有助于实现多重共线性。天真的贝叶斯假定它的输入特性是独立的(“天真”一词来自这个属性)。因此,在PCA之后,Na有更多的机会获得更好的结果。如果你发现个人电脑在欺诈案件中仍然是相关的,我不认为这是一个问题。但是,您可以尝试根据某些标准对数据进行预处理,删除高度相关的变量。插入符号库具有许多预处理功能,本教程除软件应用程序外,还介绍了有趣的内容。
https://datascience.stackexchange.com/questions/41318
复制相似问题