我正试图预测顾客对营销活动的反应。到目前为止,我有来自一个营销活动的数据和我的客户的rfm数据。
有些顾客说有60%的人收到广告。约10%的答复
从响应数据,即是否购买,在这次营销活动中,我建立了一个随机森林使用科学知识-学习。
这个模型在一个支撑集上表现得很好。但是最有影响的变量是布尔值: CustomerHasBeenAdvertised
我想使用这种模式,为未来的营销活动选择客户。为了获得类似广告条件下顾客的“购买概率”,我将变量CustomerHasBeenAdvertised设为1。
然而,在这方面的数据集上,所有的预测都在0.5以上。
这是由于可变的重要性造成的超常高价值吗?还是有其他解释?
是否将变量CustomerHasBeenAdvertised设置为1是错误方法?
如果是这样的话,如何处理这个案件:客户购买而不广告?
是否应该忽略广告是否发生的信息?
提前感谢
发布于 2016-05-03 14:05:53
这取决于你想做什么。如果你想要一个模型来预测营销活动的目标对象是谁,那么你想要训练一个模型,只使用那些被推销的人,它定义了你的两类“响应者”和“无反应者”。给一个看不见的客户,然后你的分类器将确定他们是否有可能作出反应,如果你给他们一个直接的营销广告。看看提升营销。
发布于 2016-05-03 14:11:40
如果CustomerHasBeenAdvertised变量对应于客户是否收到了来自您的活动的广告,那么我认为最好的方法是将未将CustomerHasBeenAdvertised设置为1的培训集中的所有记录排除在外,然后将该变量作为预测器删除。这仍然可能导致大多数预测超过0.5,但这不一定是一件坏事。
处理不平衡的类问题的一个常见方法(例如:很少有人响应广告或贷款破产的人)是将您的预测分为十位数,然后只对最感兴趣的几个级别采取行动(在您的例子中,客户最有可能购买)。这意味着预测的相对/秩序值比预测的名义值更重要。通常情况下,这就足够了,因为你可能不想向所有客户做广告,因为这样做成本太高了。
https://datascience.stackexchange.com/questions/11565
复制相似问题