文章/答案/技术大牛

发布

社区首页 >问答首页 >测试和列车组中的特征工程(组合数据或列车和测试分开)

问测试和列车组中的特征工程(组合数据或列车和测试分开)
EN

Data Science用户

提问于 2018-06-05 13:25:30

回答 1查看 609关注 0票数 1

背景:作为预测分析的一部分，我得到了一个训练和测试数据集。训练数据和测试数据都有数值和分类预测变量，另外，训练数据有一个数值目标变量。目的是在测试中预测目标。

train = C1，c2，x3，x4，y = Xc，X，y

test = C1，c2，x3，x4 = Xc，X

Xc，X表示范畴变量和数值预测变量。我试图从分类变量Xc中生成额外的特性，例如计数特性、count_mean、count_variance和类似的特性，这些特性是由分类变量和数值变量(均值、方差等)组合而来的。

问题:在组合数据集train+test上生成特性更好，还是在训练数据集和测试数据集中单独生成特性更好？

当一个分类变量的分布在火车和测试中不同时，会有什么影响?当它们相似时会发生什么？

data-science-model

predictive-modeling

feature-engineering

回答 1

Data Science用户

发布于 2018-06-05 13:45:05

其想法是根据您的培训集构建功能。在一个真实的应用程序中，您所需要的只是一个用于构建和部署模型的培训集，该模型将预测应用程序所需的测试示例。在这种情况下，假设您将拥有生成特性的测试数据是不现实的，因为您已经交付了模型。因此，生成特征的机制只能给出训练信息。

关于这一点：

当一个分类变量的分布在火车和测试中不同时，会有什么影响?当它们相似时会发生什么？

在训练和测试集中有不同分布的数据的含义是非常糟糕的。您的学习算法只会了解训练集上的内容，因此，如果您的测试集有不同的分布，您应该考虑更改您的培训集。但是，如果它们遵循相同的分布，那么如果您做得对，那么您的算法就会正确地泛化。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/32675

复制

相似问题

问测试和列车组中的特征工程(组合数据或列车和测试分开)
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问测试和列车组中的特征工程(组合数据或列车和测试分开)EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问测试和列车组中的特征工程(组合数据或列车和测试分开)
EN