文章/答案/技术大牛

发布

社区首页 >问答首页 >规范或标准化异常点检测或二进制分类任务的不平衡数据的最佳做法是什么？

问规范或标准化异常点检测或二进制分类任务的不平衡数据的最佳做法是什么？
EN

Data Science用户

提问于 2021-05-29 14:20:12

回答 1查看 190关注 0票数 0

我正在研究异常/离群点/欺诈检测，我正在寻找最佳做法，对不平衡数据的合成数据进行预处理。我检查了标准化/标准化的所有方法，这些方法对异常值的存在不敏感，适合本案例研究。根据科学知识-学习0.24.2关于不同标度对异常值数据影响的比较的研究，有人指出这里：

如果集合中存在一些异常值，则稳健的定标器或变压器更合适。

我使用的是CTU-13数据集，您可以在dataset 这里中看到其分布的概述。

关于数据集的合成性质，我需要对某些特征/列使用分类编码来将它们转换为基于表示的学习模型的数值(例如，使用图像形式的数据作为学习算法(如CNN )的输入。请查看这个纸中的参考文献:图6 )。

我的问题是:在预处理阶段，对于不平衡数据的异常/离群/欺诈检测，在预处理阶段，我可以使用哪种最适合我的研究案例、异常/异常/欺诈检测的最佳归一化方法来建立稳健的孤立点检测模型或二进制分类器？

任何帮助/更新在这个概念的最先进的国家将不胜感激！

anomaly-detection

normalization

categorical-encoding

binary-classification

imbalanced-data

回答 1

Data Science用户

发布于 2021-05-30 15:29:08

虽然有点牵强，但是，如果你在寻找欺诈，也许值得检查一下有奇怪的数字模式的值，比如999999000000.00，遵循本福德定律的想法。也许这是一个分数，可以增加你的因素。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/95036

复制

相似问题

问规范或标准化异常点检测或二进制分类任务的不平衡数据的最佳做法是什么？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问规范或标准化异常点检测或二进制分类任务的不平衡数据的最佳做法是什么？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问规范或标准化异常点检测或二进制分类任务的不平衡数据的最佳做法是什么？
EN