文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从大型数据库中对一个小而特殊的子集进行分类？

问如何从大型数据库中对一个小而特殊的子集进行分类？
EN

Stack Overflow用户

提问于 2013-06-03 04:26:28

回答 2查看 244关注 0票数 1

我必须在包含有关保险单的信息的数据库上执行数据挖掘任务。每个元组表示有关单个保单的数据，以及有关发布该保单的机构、它所引用的客户和其他字段的信息。它就像是假设表、保单、客户和代理商之间的产品。这些字段如下：

保单类型，ID号，保单状态，产品说明，产品组合，签发日期，生效日期，到期日，保单期限，贷款期限，取消日期，取消原因，总保费，拆分保费，ID合作伙伴，ID机构，国家/地区机构，ID区域，机构潜力，性承包商，出生年份承包商，工作承包商，性别保险，工作保险，出生年份保险，产品区域，法律表格，ID索赔，年份索赔，状态索赔，条款索赔，付款索赔

这是一项学术任务，我们的教授希望我们确定流失率、交叉销售和追加销售。我对这个领域不是很感兴趣，因此我在维基百科上查找了这些术语。我从流失率开始，在这种情况下，我必须确定其策略状态设置为“已取消”且取消原因为“客户取消”的客户的属性。

使用Rapid Miner，我尝试应用决策树和规则挖掘，但是兴趣的子集非常小，以至于输出模型，尽管总体上具有良好的准确性，但在预测取消的策略方面却非常差。之所以会发生这种情况，是因为已取消策略的子集非常小。我还尝试将MetaCost运算符应用于给定的成本矩阵，在该矩阵中，与其他策略相比，错误分类取消的策略的成本高得离谱(比如高出一百万倍)，但这根本没有改变结果。

我现在最好的选择是使用序列覆盖算法进行规则挖掘，但快速挖掘器不会实现它，我必须手动编写代码。

对于如何为这一小部分已取消的保单构建良好的模型，以便我们可以使用它来识别将来可能会取消其保单的客户，您有什么建议吗？

注:由于它来自真实的来源，虽然是匿名的，但我不能透露数据库或其中包含的任何数据。

rules

decision-tree

rapidminer

data-mining

classification

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-06-04 15:27:11

你试过Navie Bayes了吗？它可以很好地处理小数据集。您也可以尝试它的一个变体，如AODE。AODE在Rapid Miner中不可用。你应该安装Weka扩展来访问Rapid Miner中的AODE。

票数 1

Stack Overflow用户

发布于 2013-06-05 02:16:49

您需要平衡您的数据集，以便类(已取消/未取消)具有相同的大小。这意味着(暂时)丢弃大量数据。

您可以使用带有Balance Labels复选框的Sample运算符来执行此操作。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16886976

复制

相似问题

问如何从大型数据库中对一个小而特殊的子集进行分类？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从大型数据库中对一个小而特殊的子集进行分类？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从大型数据库中对一个小而特殊的子集进行分类？
EN