问共线性和孤立点去除
EN

Data Science用户

提问于 2018-11-16 15:32:26

回答 1查看 1K关注 0票数 2

我正在玩一个信用欺诈检测数据集在Kaggle。包含约0.1%欺诈交易的不平衡数据集。这些特性是由+ time & txn量完成的PCA练习中的28台PC，以及用于合法/欺诈txn的类变量0/1。

根据我的简要理解，在PCA过程中应该处理共线问题。然而，我发现个人电脑在欺诈案件中仍然是相关的(如果你将数据集分解成合法/欺诈案件)。对于使用朴素贝叶斯分类器进行欺诈检测，什么是最好的方法来最小化这种影响？

另一件事是，我在DS101被教导如何处理离群点。然而，我似乎并不认为删除离群点是一个明智的选择，因为欺诈本身可能是一个离群点。在不删除异常值的同时处理异常值的一些常见方法是什么？

我对数据科学相当陌生，所以欢迎对以上主题有任何好的指导。只是不像我在开场白中看到的那么清楚。

谢谢。

naive-bayes-classifier

outlier

collinearity

回答 1

Data Science用户

发布于 2018-11-16 16:08:21

在一般的机器学习算法中，如果输入大量的训练数据集，则可以同时处理孤立点和多重共线性。主成分分析( PCA )是一种降维技术，有助于实现多重共线性。天真的贝叶斯假定它的输入特性是独立的(“天真”一词来自这个属性)。因此，在PCA之后，Na有更多的机会获得更好的结果。如果你发现个人电脑在欺诈案件中仍然是相关的，我不认为这是一个问题。但是，您可以尝试根据某些标准对数据进行预处理，删除高度相关的变量。插入符号库具有许多预处理功能，本教程除软件应用程序外，还介绍了有趣的内容。

https://topepo.github.io/caret/pre-processing.html

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/41318

复制

相似问题

问共线性和孤立点去除
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问共线性和孤立点去除EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问共线性和孤立点去除
EN