文章/答案/技术大牛

发布

社区首页 >问答首页 >低概率分类AdaBoost的训练与测试

问低概率分类AdaBoost的训练与测试
EN

Data Science用户

提问于 2015-06-12 00:35:25

回答 4查看 1.3K关注 0票数 7

我有一个数据集，我想分类为欺诈/非欺诈，我有许多薄弱的学习者。我担心的是，有更多的欺诈比没有欺诈，所以我的弱学习者表现好于平均水平，但没有一个表现超过50%的准确性在成套。

我的问题是，我是否应该设置测试和培训集，其中一半是欺诈，一半不是欺诈，或者我是否应该使用一个代表性的样本。

classification

class-imbalance

回答 4

Data Science用户

发布于 2015-08-11 11:01:44

是否有可能将生成的数据添加到您的数据集中将减少欺诈/非欺诈比率，并使您的数据集更具代表性/可用性？

在GenieLog，我们正在生产用于设计和测试欺诈检测工具的测试数据。我们的生成器GEDIS我们可以定义常规的配置文件和欺诈者配置文件，实例化每个类别到一个可自定义的比率(对于ex )。2%的客户将有欺诈性使用生成的事件。)

我们成功地应用于电信CDR (http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html)和信用卡的使用。可以免费访问http://www.data-generator.com上的在线生成器

我非常肯定，即使工具不符合您的需求，至少这种方法是有价值的。否则，我有兴趣阅读任何反对意见:)

问候

票数 1

Data Science用户

发布于 2015-06-12 12:44:06

培训集必须表示应用程序/算法实际要面对的数据集。我建议你采取一个有代表性的样本，而不是将培训和测试集与准确的一半欺诈，一半非欺诈。但是，请确保培训集包含欺诈的正面和负面示例，以便分类器能够更好地执行。

票数 0

Data Science用户

发布于 2015-07-14 04:24:44

在特定类实际上是少数的情况下，我建议使用罕见的类别检测。在这种欺诈/非欺诈的特殊情况下，欺诈是一个罕见的类别。它是稀有类别检测的一个活跃的研究领域。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/6088

复制

相似问题

问低概率分类AdaBoost的训练与测试
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问低概率分类AdaBoost的训练与测试EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问低概率分类AdaBoost的训练与测试
EN