首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从大型数据库中对一个小而特殊的子集进行分类?

如何从大型数据库中对一个小而特殊的子集进行分类?
EN

Stack Overflow用户
提问于 2013-06-03 04:26:28
回答 2查看 244关注 0票数 1

我必须在包含有关保险单的信息的数据库上执行数据挖掘任务。每个元组表示有关单个保单的数据,以及有关发布该保单的机构、它所引用的客户和其他字段的信息。它就像是假设表、保单、客户和代理商之间的产品。这些字段如下:

保单类型,ID号,保单状态,产品说明,产品组合,签发日期,生效日期,到期日,保单期限,贷款期限,取消日期,取消原因,总保费,拆分保费,ID合作伙伴,ID机构,国家/地区机构,ID区域,机构潜力,性承包商,出生年份承包商,工作承包商,性别保险,工作保险,出生年份保险,产品区域,法律表格,ID索赔,年份索赔,状态索赔,条款索赔,付款索赔

这是一项学术任务,我们的教授希望我们确定流失率、交叉销售和追加销售。我对这个领域不是很感兴趣,因此我在维基百科上查找了这些术语。我从流失率开始,在这种情况下,我必须确定其策略状态设置为“已取消”且取消原因为“客户取消”的客户的属性。

使用Rapid Miner,我尝试应用决策树和规则挖掘,但是兴趣的子集非常小,以至于输出模型,尽管总体上具有良好的准确性,但在预测取消的策略方面却非常差。之所以会发生这种情况,是因为已取消策略的子集非常小。我还尝试将MetaCost运算符应用于给定的成本矩阵,在该矩阵中,与其他策略相比,错误分类取消的策略的成本高得离谱(比如高出一百万倍),但这根本没有改变结果。

我现在最好的选择是使用序列覆盖算法进行规则挖掘,但快速挖掘器不会实现它,我必须手动编写代码。

对于如何为这一小部分已取消的保单构建良好的模型,以便我们可以使用它来识别将来可能会取消其保单的客户,您有什么建议吗?

注:由于它来自真实的来源,虽然是匿名的,但我不能透露数据库或其中包含的任何数据。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-06-04 15:27:11

你试过Navie Bayes了吗?它可以很好地处理小数据集。您也可以尝试它的一个变体,如AODE。AODE在Rapid Miner中不可用。你应该安装Weka扩展来访问Rapid Miner中的AODE。

票数 1
EN

Stack Overflow用户

发布于 2013-06-05 02:16:49

您需要平衡您的数据集,以便类(已取消/未取消)具有相同的大小。这意味着(暂时)丢弃大量数据。

您可以使用带有Balance Labels复选框的Sample运算符来执行此操作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16886976

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档