背景:作为预测分析的一部分,我得到了一个训练和测试数据集。训练数据和测试数据都有数值和分类预测变量,另外,训练数据有一个数值目标变量。目的是在测试中预测目标。
train = C1,c2,x3,x4,y = Xc,X,y
test = C1,c2,x3,x4 = Xc,X
Xc,X表示范畴变量和数值预测变量。我试图从分类变量Xc中生成额外的特性,例如计数特性、count_mean、count_variance和类似的特性,这些特性是由分类变量和数值变量(均值、方差等)组合而来的。
问题:在组合数据集train+test上生成特性更好,还是在训练数据集和测试数据集中单独生成特性更好?
当一个分类变量的分布在火车和测试中不同时,会有什么影响?当它们相似时会发生什么?
发布于 2018-06-05 13:45:05
其想法是根据您的培训集构建功能。在一个真实的应用程序中,您所需要的只是一个用于构建和部署模型的培训集,该模型将预测应用程序所需的测试示例。在这种情况下,假设您将拥有生成特性的测试数据是不现实的,因为您已经交付了模型。因此,生成特征的机制只能给出训练信息。
关于这一点:
当一个分类变量的分布在火车和测试中不同时,会有什么影响?当它们相似时会发生什么?
在训练和测试集中有不同分布的数据的含义是非常糟糕的。您的学习算法只会了解训练集上的内容,因此,如果您的测试集有不同的分布,您应该考虑更改您的培训集。但是,如果它们遵循相同的分布,那么如果您做得对,那么您的算法就会正确地泛化。
https://datascience.stackexchange.com/questions/32675
复制相似问题