假设一个数据集有0.5%的特征是连续的,99.5%是分类(二进制),总共有2400个特征。在这个数据集中,每个观察是两个类别中的一个--欺诈(1)或不欺诈(0)。此外,还有一个很大的阶级不平衡,只有2.6%的例子是欺诈,另97%的例子不是欺诈。
假设我们想要预测一个给定的例子是否是欺诈,我们采用了一种使用自动编码器的异常检测方法。
考虑到数据集中的混合数据类型,一般来说,仅对非欺诈示例进行培训的自动编码器在预测欺诈示例方面会表现良好吗?是否有任何文献表明哪些体系结构工作最好/如果应该事先进行一些预处理(缩放和PCA)?我之所以这样问,是因为我觉得自动编码器可能很难用二进制特性来训练。
发布于 2018-07-10 12:50:25
一般来说,当涉及到检测欺诈例子时,自动编码器应该表现良好。从理论上讲,欺诈性的例子应该有更高的重建误差。当涉及到对二进制数据的自动编码器的培训时,我同意您的看法,这可能是相当有挑战性的。我建议看看这个博客:https://blog.evjang.com/2016/11/tutorial-categorical-variational.html
https://datascience.stackexchange.com/questions/34204
复制相似问题