我有一个包含欺诈和非欺诈数据的数据集。该系统是一个基于规则的引擎,有20多个规则。如果总分高于某一阈值,则支付被归类为欺诈性。什么是使用机器学习优化分配给不同规则的分数的有效方法(欺诈规则)。
谢谢
发布于 2018-05-19 13:32:36
这是一个分类问题。您有20个功能(例如,规则)和输出是二进制的(即,欺诈或无欺诈)。目前尚不清楚规则的特点是什么。听起来它们可能是二进制的(例如,通过或失败)。你是否有关于哪些项目实际上是欺诈和哪些不是欺诈的培训数据?如果是的话,你可以训练分类模型。例如,您可以执行逻辑回归,以规则作为输入来预测欺诈的概率。分配给每个规则的系数可以解释为每个规则的分数或权重。如果预测的欺诈概率高于某个概率阈值,则将其归类为欺诈。
如果没有培训数据,则可以尝试将相似的规则结果聚到两个集群中。
编辑:如果您可以定义一些损失函数(例如,预测的准确性),那么您可以设置一个优化问题来找到最佳系数(即,最小误差度量的系数)。这只是一个优化问题,根据您的编码语言,可以使用合适的求解器。但是,您的加权规则方法可能不会像已建立的分类方法那样执行。
https://datascience.stackexchange.com/questions/31849
复制相似问题