我正在学习熊猫的管道和特色联盟。我了解管道的工作原理,这有助于将一系列转换应用于给定的数据集。但是,我对功能联盟感到困惑。我读过文档,它说变压器是并行应用的,然后将结果连在一起。
我对此表示怀疑,如果我们将所有变压器应用于整个数据集,还是仅将不同的变压器应用于选定的功能?如果对整个数据集,我们如何连接结果?此外,我是否应该使用FeatureUnion的通用用例?
发布于 2018-10-05 12:49:50
当您想要对这些特性应用不同类型的转换时,就会使用FeatureUnion。对于同一组特性,您可能希望应用多种类型的转换,并希望将所有这些转换的组合用作您的新功能。
这里的文件中的解释应该会给你一些想法。
我认为在阅读了当前版本的文档之后,您会感到困惑。以前,FeatureUnion用来做ColumnTransformer在0.20版中正在做的事情。比较一下这里的最新示例:
下面是上一个版本的文档:
你会注意到相似之处。
您可以尝试在Stackoverflow上搜索以找到不同的FeatureUnion用例。如果仍然不满意,请随时提出更具体的问题。了解您想要对数据集做什么可能会有帮助。
注释更新
特征的数量可能增加或减少。如果您不将原始特性保存在转换中,FeatureUnion将不会保留它们。
举个例子:
estimators = [('linear_pca', PCA(n_components=5)),
('kernel_pca', KernelPCA(n_components=10))]
combined = FeatureUnion(estimators)假设您的原始数据有100个功能。上面的FeatureUnion将只返回15个新特性。
https://stackoverflow.com/questions/52653993
复制相似问题