首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >测试和列车组中的特征工程(组合数据或列车和测试分开)

测试和列车组中的特征工程(组合数据或列车和测试分开)
EN

Data Science用户
提问于 2018-06-05 13:25:30
回答 1查看 609关注 0票数 1

背景:作为预测分析的一部分,我得到了一个训练和测试数据集。训练数据和测试数据都有数值和分类预测变量,另外,训练数据有一个数值目标变量。目的是在测试中预测目标。

train = C1,c2,x3,x4,y = Xc,X,y

test = C1,c2,x3,x4 = Xc,X

Xc,X表示范畴变量和数值预测变量。我试图从分类变量Xc中生成额外的特性,例如计数特性、count_mean、count_variance和类似的特性,这些特性是由分类变量和数值变量(均值、方差等)组合而来的。

问题:在组合数据集train+test上生成特性更好,还是在训练数据集和测试数据集中单独生成特性更好?

当一个分类变量的分布在火车和测试中不同时,会有什么影响?当它们相似时会发生什么?

EN

回答 1

Data Science用户

发布于 2018-06-05 13:45:05

其想法是根据您的培训集构建功能。在一个真实的应用程序中,您所需要的只是一个用于构建和部署模型的培训集,该模型将预测应用程序所需的测试示例。在这种情况下,假设您将拥有生成特性的测试数据是不现实的,因为您已经交付了模型。因此,生成特征的机制只能给出训练信息。

关于这一点:

当一个分类变量的分布在火车和测试中不同时,会有什么影响?当它们相似时会发生什么?

在训练和测试集中有不同分布的数据的含义是非常糟糕的。您的学习算法只会了解训练集上的内容,因此,如果您的测试集有不同的分布,您应该考虑更改您的培训集。但是,如果它们遵循相同的分布,那么如果您做得对,那么您的算法就会正确地泛化。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/32675

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档