我必须在包含有关保险单的信息的数据库上执行数据挖掘任务。每个元组表示有关单个保单的数据,以及有关发布该保单的机构、它所引用的客户和其他字段的信息。它就像是假设表、保单、客户和代理商之间的产品。这些字段如下:
保单类型,ID号,保单状态,产品说明,产品组合,签发日期,生效日期,到期日,保单期限,贷款期限,取消日期,取消原因,总保费,拆分保费,ID合作伙伴,ID机构,国家/地区机构,ID区域,机构潜力,性承包商,出生年份承包商,工作承包商,性别保险,工作保险,出生年份保险,产品区域,法律表格,ID索赔,年份索赔,状态索赔,条款索赔,付款索赔
这是一项学术任务,我们的教授希望我们确定流失率、交叉销售和追加销售。我对这个领域不是很感兴趣,因此我在维基百科上查找了这些术语。我从流失率开始,在这种情况下,我必须确定其策略状态设置为“已取消”且取消原因为“客户取消”的客户的属性。
使用Rapid Miner,我尝试应用决策树和规则挖掘,但是兴趣的子集非常小,以至于输出模型,尽管总体上具有良好的准确性,但在预测取消的策略方面却非常差。之所以会发生这种情况,是因为已取消策略的子集非常小。我还尝试将MetaCost运算符应用于给定的成本矩阵,在该矩阵中,与其他策略相比,错误分类取消的策略的成本高得离谱(比如高出一百万倍),但这根本没有改变结果。
我现在最好的选择是使用序列覆盖算法进行规则挖掘,但快速挖掘器不会实现它,我必须手动编写代码。
对于如何为这一小部分已取消的保单构建良好的模型,以便我们可以使用它来识别将来可能会取消其保单的客户,您有什么建议吗?
注:由于它来自真实的来源,虽然是匿名的,但我不能透露数据库或其中包含的任何数据。
发布于 2013-06-04 15:27:11
你试过Navie Bayes了吗?它可以很好地处理小数据集。您也可以尝试它的一个变体,如AODE。AODE在Rapid Miner中不可用。你应该安装Weka扩展来访问Rapid Miner中的AODE。
发布于 2013-06-05 02:16:49
您需要平衡您的数据集,以便类(已取消/未取消)具有相同的大小。这意味着(暂时)丢弃大量数据。
您可以使用带有Balance Labels复选框的Sample运算符来执行此操作。
https://stackoverflow.com/questions/16886976
复制相似问题