首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在机器学习中,如何在数字和分类特征上使用统一的管道?

在机器学习中,如何在数字和分类特征上使用统一的管道?
EN

Stack Overflow用户
提问于 2019-02-12 09:30:38
回答 2查看 657关注 0票数 2

想要运行编码器上的分类特征,输入(见下文)上的数字特征,并将它们统一在一起。

例如,具有分类特征的数字:

代码语言:javascript
复制
df_with_cat = pd.DataFrame({
           'A'      : ['ios', 'android', 'web', 'NaN'],
           'B'      : [4, 4, 'NaN', 2], 
           'target' : [1, 1, 0, 0] 
       })
df_with_cat.head()

    A        B  target
----------------------
0   ios      4    1
1   android  4    1
2   web     NaN   0
3   NaN      2    0

我们希望在数值特性上运行Imputer,即用"most_frequent“/”中值“/”==> 管线1“替换丢失的值/。但我们希望将分类特征转换为数字/ OneHotEncoding等==> 管道2

统一它们的最佳做法是什么?

p.s:将上述2与分类器相结合.(随机森林/决策树/ GBM)

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-12 09:30:38

显然有一种很酷的方法!,对于这个df:

代码语言:javascript
复制
df_with_cat = pd.DataFrame({
           'A'      : ['ios', 'android', 'web', 'NaN'],
           'B'      : [4, 4, 'NaN', 2], 
           'target' : [1, 1, 0, 0] 
       })

如果您不介意将滑雪板升级到0.20.2,请运行:

代码语言:javascript
复制
pip3 install scikit-learn==0.20.2

并使用此解决方案(正如@AI_learning所建议的):

代码语言:javascript
复制
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

columnTransformer = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), CATEGORICAL_FEATURES),
        ('num', Imputer( strategy='most_frequent'), NUMERICAL_FEATURES)
    ])

然后:

columnTransformer.fit(df_with_cat)

但是,如果您正在使用早期的sklearn版本,请使用此版本:

代码语言:javascript
复制
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import LabelBinarizer, LabelEncoder 

CATEGORICAL_FEATURES = ['A']
NUMERICAL_FEATURES = ['B']
TARGET = ['target']

numerical_pipline = Pipeline([
    ('selector', DataFrameSelector(NUMERICAL_FEATURES)),
    ('imputer', Imputer(strategy='most_frequent'))
])

categorical_pipeline = Pipeline([
    ('selector', DataFrameSelector(CATEGORICAL_FEATURES)),
    ('cat_encoder', LabelBinarizerPipelineFriendly())
])

如果您注意到我们错过了DataFrameSelector,那么它并不是sklearn的一部分,所以让我们在这里编写它:

代码语言:javascript
复制
from sklearn.base import BaseEstimator, TransformerMixin
class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

让我们把它们统一起来:

代码语言:javascript
复制
from sklearn.pipeline import FeatureUnion, make_pipeline

preprocessing_pipeline = FeatureUnion(transformer_list=[
    ('numerical_pipline', numerical_pipline),
    ('categorical_pipeline', categorical_pipeline)
])

就这样,现在让我们跑:

代码语言:javascript
复制
preprocessing_pipeline.fit_transform(df_with_cat[CATEGORICAL_FEATURES+NUMERICAL_FEATURES])

现在让我们走得更疯狂!用分类器管道将它们统一起来:

代码语言:javascript
复制
from sklearn import tree
clf = tree.DecisionTreeClassifier()
full_pipeline = make_pipeline(preprocessing_pipeline, clf)

并一起训练他们:

代码语言:javascript
复制
full_pipeline.fit(df_with_cat[CATEGORICAL_FEATURES+NUMERICAL_FEATURES], df_with_cat[TARGET])

只要打开一个木星笔记本,拿出部分代码,并尝试它自己!

以下是LabelBinarizerPipelineFriendly()的定义:

代码语言:javascript
复制
class LabelBinarizerPipelineFriendly(LabelBinarizer):
    '''
     Wrapper to LabelBinarizer to allow usage in sklearn.pipeline
    '''

    def fit(self, X, y=None):
        """this would allow us to fit the model based on the X input."""
        super(LabelBinarizerPipelineFriendly, self).fit(X)
    def transform(self, X, y=None):
        return super(LabelBinarizerPipelineFriendly, self).transform(X)

    def fit_transform(self, X, y=None):
        return super(LabelBinarizerPipelineFriendly, self).fit(X).transform(X)

这种方法的主要优点是,您可以将经过训练的模型与所有管道一起转储到pkl文件,然后可以实时使用相同的方法(生产中的预测)。

票数 0
EN

Stack Overflow用户

发布于 2019-02-12 12:38:23

正如@Sergey所提到的,可以使用ColumnTransformer实现同样的功能。

代码语言:javascript
复制
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

df = pd.DataFrame({
           'A'      : ['ios', 'android', 'web', 'NaN'],
           'B'      : [4, 4, 'NaN', 2], 
           'target' : [1, 1, 0, 0] 
       })

categorical_features = ['A']
numeric_features = ['B']
TARGET = ['target']

df[numeric_features]=df[numeric_features].replace('NaN', np.NaN)
columnTransformer = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), categorical_features),
        ('num', SimpleImputer( strategy='most_frequent'), numeric_features)])

columnTransformer.fit_transform(df)

#
array([[0., 0., 1., 0., 4.],
   [0., 1., 0., 0., 4.],
   [0., 0., 0., 1., 4.],
   [1., 0., 0., 0., 2.]])
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54646785

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档