我想开发一个随机森林分类器模型,以预测是否一个客户将在7天后转换。该模型每周重新训练一次,并对下一周进行预测。我使用的特性是使用两年的客户行为数据创建的。
由于我运行这个模型并每周生成一次预测,我一直在每周为每个客户存储转换预测。此外,我将知道我以前的预测是否正确。
因此,假设我今天将再次为接下来的一周训练这个模型,我想包括以下特性:
last_wk_predictions = Probability of Purchase predicted last week for each customer (between 0 and 1)
did_convert_last_wk = did they convert last week? (0 or 1)这种方法有具体的名称吗?包括过去的预测是否被认为是数据泄漏?
发布于 2019-03-27 17:13:49
这取决于你正在解决的业务问题。如果初始模型不太好,您可能会看到数据泄漏。对于每周的问题,最好是得到真实的真实情况(即使是一周数据的一小部分),并将其添加到模型的重新评估和可能的再培训中。现在,如果您认为过去的购买会使客户返回(是的,如果产品是好的,并且很快消费,使客户再次想要它),那么是的,添加每周的基本事实肯定会大大增加对相同产品的退货客户的错误分类。但正如我在第一句中所说,如果你只包括过去一周到本周的预测,模型可能会出错,因为第一次迭代错误将开始影响以后的迭代,随着时间的推移,模型将偏离良好的预测。如果你将过去一周的预测包括到本周,而顾客的退货行为与当前的行为(比如非慢性病人因轻微疾病到医院就诊)毫无关系,那么你就是在引入数据泄漏,这将随着时间的推移而给出错误的预测。
https://datascience.stackexchange.com/questions/43461
复制相似问题