我有一个(可能是愚蠢的)问题,就是用一个缺失的预测器来预测一个新实例。
我得到了一份数据。假设我对数据进行预处理,清理数据,因此,假设只剩下10个预测器。然后,我根据得到的数据训练我的模型,所以我准备使用模型来预测。
现在,如果我想预测缺少1或2个预测器的新实例,该怎么办?
发布于 2017-10-05 17:14:09
至少有两个合理的解决办法。
(1)以非缺失变量的值为条件,对缺失变量的可能值进行平均输出。也就是说,计算每个可能的缺失值的输出预测(缺失、不丢失)的加权平均值,并根据给定的不丢失的概率进行加权。这实质上是文学中所谓的“多重归责”的多种形式。
第一件事是通过无条件地分配丢失量来衡量体重。如果这看起来太复杂了,一个非常粗略的近似就是将缺失的平均值替换到预测中。
(2)为每个组合变量建立模型。如果有n个变量,这意味着构建2^n变量。如果n= 10,现在1024款不是什么大事。然后,如果缺少一些变量,只需将模型用于存在的变量。
顺便说一句,在stats.stackexchange.com,您可能会对这个问题更感兴趣。
https://stackoverflow.com/questions/46590972
复制相似问题