我有信用卡欺诈数据集。有两种类型,一种是欺诈交易,另一种是非欺诈交易。你能建议我用什么ML算法来模拟这两个种群的主要特征吗?我需要创建两个配置文件:
例如:
欺诈交易-金额< 90 $的交易,交易发生在一天中的特定时间
不是欺诈的事务--金额大于90 $的事务,事务发生在一天中的特定时间。
我使用了描述性的统计数据,并试图分别观察这两个群体。但是,有什么ML模型,我可以用来区分这两个明显类似于1)和2)
我对每个人口都有两个以上的特征。
发布于 2020-09-09 02:25:14
我的建议是简单地开始,并尝试构建类似于逻辑回归模型的东西来对数据集的欺诈/无欺诈进行分类。这可能会帮助您快速了解如何设计最好的特性来将这两个群体分开。
学习过程中的Logistic回归:https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
另一种方法是在此时更多地探索数据,使用像UMAP这样的工具来可视化数据中可能存在的结构,并将其用于特性工程。
原始UMAP文件:https://arxiv.org/abs/1802.03426
UMAP上的博客文章示例:https://pair-code.github.io/understanding-umap/
https://datascience.stackexchange.com/questions/81414
复制相似问题