出于学术目的,我正在做一些关于欺诈检测的研究。我想具体了解有关从事务性数据集中进行特征选择\生成的技术。更详细地说,给定交易的数据集(例如信用卡),选择在模型上使用哪些类型的功能,以及它们是如何设计的?
我遇到的所有论文都集中在模型本身(SVM,NN,...)没有真正涉及到这个话题。
此外,如果有人知道未匿名的公共数据集-这也会有所帮助。
谢谢
发布于 2018-05-14 22:20:07
对于数据科学家或机器学习从业者来说,对特征选择/排名有很好的理解可能是一笔巨大的财富。对这些方法的良好掌握有助于更好地执行模型,更好地理解数据的底层结构和特征,并导致对许多机器学习模型背后的算法有更好的直觉。
通常使用特征选择有两个原因: 1。减少特征的数量,减少过拟合,提高模型的泛化能力。2.更好地理解特征及其与响应变量的关系。
可能的方法:
单变量特征选择:
基于最大信息系数和最大信息系数的排名基于Correlation
基于树的方法:
Other
https://stackoverflow.com/questions/50330778
复制相似问题