问利用自动编码器对分类数据进行异常检测
EN

Data Science用户

提问于 2018-07-09 15:53:37

回答 1查看 7.9K关注 0票数 8

假设一个数据集有0.5%的特征是连续的，99.5%是分类(二进制)，总共有2400个特征。在这个数据集中，每个观察是两个类别中的一个--欺诈(1)或不欺诈(0)。此外，还有一个很大的阶级不平衡，只有2.6%的例子是欺诈，另97%的例子不是欺诈。

假设我们想要预测一个给定的例子是否是欺诈，我们采用了一种使用自动编码器的异常检测方法。

考虑到数据集中的混合数据类型，一般来说，仅对非欺诈示例进行培训的自动编码器在预测欺诈示例方面会表现良好吗？是否有任何文献表明哪些体系结构工作最好/如果应该事先进行一些预处理(缩放和PCA)？我之所以这样问，是因为我觉得自动编码器可能很难用二进制特性来训练。

neural-network

anomaly-detection

autoencoder

回答 1

Data Science用户

回答已采纳

发布于 2018-07-10 12:50:25

一般来说，当涉及到检测欺诈例子时，自动编码器应该表现良好。从理论上讲，欺诈性的例子应该有更高的重建误差。当涉及到对二进制数据的自动编码器的培训时，我同意您的看法，这可能是相当有挑战性的。我建议看看这个博客：https://blog.evjang.com/2016/11/tutorial-categorical-variational.html

票数 10

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/34204

复制

相似问题

问利用自动编码器对分类数据进行异常检测
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用自动编码器对分类数据进行异常检测EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用自动编码器对分类数据进行异常检测
EN