我想开发一个随机森林分类器模型,以预测是否一个客户将在7天后转换。该模型每周重新训练一次,并对下一周进行预测。我使用的特性是使用两年的客户行为数据创建的。由于我运行这个模型并每周生成一次预测,我一直在每周为每个客户存储转换预测。此外,我将知道我以前的预测是否正确。因此,假设我今天将再次为接下来的一周训练这个模型,我想包括以下特性:
last_wk_predictions = Probability of Purcha
我有一个简单的预测。我有12个可能的特征。在发现大多数方差被其中的7个变量捕获后-我使用了caret包中的preProcess -我想只使用这7个变量创建一个线性模型lm。我运行了preProcess结果就是PCA needed 7 components to capture80 percent of the variance
问题是如何仅使用这7个功能来运行
我想传递我的预测模型值,这些值将根据条件从Pandas DataFrame中提取,来自模型的结果将放置在Pandas DataFrame中。Prediction是该日期的预测值。(需要填充) Model Values,需要传递给模型的值才能得到结果。(棘手的部分)
该模型需要超过7天的数值,并给出第二天的输出。因此,可以进行预测的最小日期是9th Jan。为了对9th Jan进行预测,df['Actual Value