我有一个数据集,我想分类为欺诈/非欺诈,我有许多薄弱的学习者。我担心的是,有更多的欺诈比没有欺诈,所以我的弱学习者表现好于平均水平,但没有一个表现超过50%的准确性在成套。
我的问题是,我是否应该设置测试和培训集,其中一半是欺诈,一半不是欺诈,或者我是否应该使用一个代表性的样本。
发布于 2015-08-11 11:01:44
是否有可能将生成的数据添加到您的数据集中将减少欺诈/非欺诈比率,并使您的数据集更具代表性/可用性?
在GenieLog,我们正在生产用于设计和测试欺诈检测工具的测试数据。我们的生成器GEDIS我们可以定义常规的配置文件和欺诈者配置文件,实例化每个类别到一个可自定义的比率(对于ex )。2%的客户将有欺诈性使用生成的事件。)
我们成功地应用于电信CDR (http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html)和信用卡的使用。可以免费访问http://www.data-generator.com上的在线生成器
我非常肯定,即使工具不符合您的需求,至少这种方法是有价值的。否则,我有兴趣阅读任何反对意见:)
问候
发布于 2015-06-12 12:44:06
培训集必须表示应用程序/算法实际要面对的数据集。我建议你采取一个有代表性的样本,而不是将培训和测试集与准确的一半欺诈,一半非欺诈。但是,请确保培训集包含欺诈的正面和负面示例,以便分类器能够更好地执行。
发布于 2015-07-14 04:24:44
在特定类实际上是少数的情况下,我建议使用罕见的类别检测。在这种欺诈/非欺诈的特殊情况下,欺诈是一个罕见的类别。它是稀有类别检测的一个活跃的研究领域。
https://datascience.stackexchange.com/questions/6088
复制相似问题