首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >低概率分类AdaBoost的训练与测试

低概率分类AdaBoost的训练与测试
EN

Data Science用户
提问于 2015-06-12 00:35:25
回答 4查看 1.3K关注 0票数 7

我有一个数据集,我想分类为欺诈/非欺诈,我有许多薄弱的学习者。我担心的是,有更多的欺诈比没有欺诈,所以我的弱学习者表现好于平均水平,但没有一个表现超过50%的准确性在成套。

我的问题是,我是否应该设置测试和培训集,其中一半是欺诈,一半不是欺诈,或者我是否应该使用一个代表性的样本。

EN

回答 4

Data Science用户

发布于 2015-08-11 11:01:44

是否有可能将生成的数据添加到您的数据集中将减少欺诈/非欺诈比率,并使您的数据集更具代表性/可用性?

在GenieLog,我们正在生产用于设计和测试欺诈检测工具的测试数据。我们的生成器GEDIS我们可以定义常规的配置文件和欺诈者配置文件,实例化每个类别到一个可自定义的比率(对于ex )。2%的客户将有欺诈性使用生成的事件。)

我们成功地应用于电信CDR (http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html)和信用卡的使用。可以免费访问http://www.data-generator.com上的在线生成器

我非常肯定,即使工具不符合您的需求,至少这种方法是有价值的。否则,我有兴趣阅读任何反对意见:)

问候

票数 1
EN

Data Science用户

发布于 2015-06-12 12:44:06

培训集必须表示应用程序/算法实际要面对的数据集。我建议你采取一个有代表性的样本,而不是将培训和测试集与准确的一半欺诈,一半非欺诈。但是,请确保培训集包含欺诈的正面和负面示例,以便分类器能够更好地执行。

票数 0
EN

Data Science用户

发布于 2015-07-14 04:24:44

在特定类实际上是少数的情况下,我建议使用罕见的类别检测。在这种欺诈/非欺诈的特殊情况下,欺诈是一个罕见的类别。它是稀有类别检测的一个活跃的研究领域。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/6088

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档