文章/答案/技术大牛

发布

社区首页 >问答首页 >自定义Sklearn转换器单独工作，在管道中使用时抛出错误

问自定义Sklearn转换器单独工作，在管道中使用时抛出错误
EN

Stack Overflow用户

提问于 2017-10-17 02:05:27

回答 1查看 1.8K关注 0票数 6

我有一个简单的滑雪课，我想使用作为一个滑雪管道的一部分。这个类只获取一个熊猫的dataframe X_DF和一个分类列名，并调用pd.get_dummies来返回数据，并将该列转换为一个虚拟变量矩阵.

import pandas as pd
from sklearn.base import TransformerMixin, BaseEstimator

class dummy_var_encoder(TransformerMixin, BaseEstimator):
    '''Convert selected categorical column to (set of) dummy variables    
    '''


    def __init__(self, column_to_dummy='default_col_name'):
        self.column = column_to_dummy
        print self.column

    def fit(self, X_DF, y=None):
        return self 

    def transform(self, X_DF):
        ''' Update X_DF to have set of dummy-variables instead of orig column'''        

        # convert self-attribute to local var for ease of stepping through function
        column = self.column

        # add columns for new dummy vars, and drop original categorical column
        dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

        new_DF = pd.concat([X_DF[column], dummy_matrix], axis=1)

        return new_DF

现在使用它自己的转换器来适应/转换，我得到了预期的输出。关于一些玩具数据如下：

from sklearn import datasets
# Load toy data 
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')

# Create Arbitrary categorical features
X['category_1'] = pd.cut(X['sepal length (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

X['category_2'] = pd.cut(X['sepal width (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

...my虚拟编码器产生正确的输出：

encoder = dummy_var_encoder(column_to_dummy = 'category_1')
encoder.fit(X)
encoder.transform(X).iloc[15:21,:]

category_1
   category_1  category_1_small  category_1_medium  category_1_large
15     medium                 0                  1                 0
16      small                 1                  0                 0
17      small                 1                  0                 0
18     medium                 0                  1                 0
19      small                 1                  0                 0
20      small                 1                  0                 0

但是，当我从sklearn管道调用相同的转换器时，定义如下：

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, GridSearchCV

# Define Pipeline
clf = LogisticRegression(penalty='l1')
pipeline_steps = [('dummy_vars', dummy_var_encoder()),
                  ('clf', clf)
                  ]

pipeline = Pipeline(pipeline_steps)

# Define hyperparams try for dummy-encoder and classifier
# Fit 4 models - try dummying category_1 vs category_2, and using l1 vs l2 penalty in log-reg
param_grid = {'dummy_vars__column_to_dummy': ['category_1', 'category_2'],
              'clf__penalty': ['l1', 'l2']
                  }

# Define full model search process 
cv_model_search = GridSearchCV(pipeline, 
                               param_grid, 
                               scoring='accuracy', 
                               cv = KFold(),
                               refit=True,
                               verbose = 3)

在我安装管道之前，这一切都很好，这时我从虚拟编码器得到了一个错误：

cv_model_search.fit(X,y=y)

在101: cv_model_search.fit(X，y=y)为4位候选人各拟合3次，共12次。无简历dummy_vars__column_to_dummy=category_1，clf__penalty=l1 . 回溯(最近一次调用)：文件""，第1行，在cv_model_search.fit(X，y=y)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_search.py"，第638行，在fit cv.split(X，y，组)中) 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py"，第779行，在call while self.dispatch_one_batch(迭代器)中：文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py"，第625行，在dispatch_one_batch self._dispatch(任务)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py"，第588行，在_dispatch job =self._backend.apply_async(批处理，callback=cb)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py"，第111行，在apply_async结果= ImmediateResult(func)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py"，第332行，在init self.results = batch()中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py"，第131行，在call返回func(*args，** kwargs )中用于func，args，kwargs in self.items 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_validation.py"，第437行，在_fit_and_score estimator.fit(X_train，y_train，**fit_params)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py"，第257行，适合Xt，fit_params = self._fit(X，y，**fit_params) 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py"，第222行，在_fit **fit_params_stepsname中) 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/memory.py"，第362行，在call返回self.func(*args，**kwargs) 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py"，第589行，在_fit_transform_one res = transformer.fit_transform(X，y，**fit_params)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/base.py"，第521行，在fit_transform返回self.fit(X，y，**fit_params).transform(X) 文件""，第21行，转换为dummy_matrix = pd.get_dummies(X_DFcolumn，prefix=column) 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py"，行1964年，在getitem返回self._getitem_column(键) 文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py"，行1971，在_getitem_column返回self._get_item_cache(键)中文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/generic.py"，第1645行，以_get_item_cache值=self._data.get(项目)为单位文件"/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/internals.py"，第3599行，在get raise (“无法用空键标记索引”)中 ValueError:不能用空键标记索引

python

pandas

machine-learning

scikit-learn

pipeline

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-10-17 15:59:31

追踪就是告诉你到底出了什么问题。学习诊断跟踪是非常宝贵的，特别是当您从库继承时，您可能还没有完全了解它。

现在，我自己在sklearn中做了一些继承工作，我可以毫无疑问地告诉您，如果您的fit或fit_transform方法中的数据输入类型不是NumPy数组，那么fit_transform会给您带来一些麻烦。正如Vivek在他的评论中提到的，将X传递给fit方法不再是一个DataFrame。但让我们先来看看痕迹。

ValueError:不能用空键标记索引

虽然Vivek对NumPy数组的看法是正确的，但这里还有另一个问题。实际的错误是，fit方法中的column值为None。如果您查看上面的encoder对象，您将看到__repr__方法输出以下内容：

dummy_var_encoder(column_to_dummy=None)

当使用Pipeline时，这个param将被初始化并传递给GridSearchCV。这种行为也可以在交叉验证和搜索方法中看到，并且具有来自输入参数的不同名称的属性会导致类似的问题。解决这个问题会让你走上正确的道路。

修改__init__方法本身将解决这个特定问题：

def __init__(self, column='default_col_name'):
    self.column = column
    print(self.column)

然而，一旦你做了这件事，Vivek提到的问题会引起它的头，你将不得不处理这个问题。这是我以前遇到过的事情，虽然不是专门针对DataFrames的。我在 on custom class whose fit method takes 3 arguments中想出了一个解决方案。基本上，我创建了一个包装器，它实现__getitem__方法的方式使数据看起来和行为能够通过GridSearchCV、Pipeline和其他交叉验证方法中使用的验证方法。

编辑

我做了这些更改，看起来您的问题来自于验证方法check_array。虽然用dtype=pd.DataFrame调用这个方法是可行的，但是线性模型调用这个方法时会抛出一个错误。为了解决这个问题，而不是将原始数据与虚拟人连接起来，您可以返回虚拟列并使用这些列进行匹配。这是无论如何都应该做的事情，因为您不希望在模型中同时包含虚拟列和原始数据。你也可以考虑drop_first选项，但我要离开主题。因此，像这样更改fit方法可以使整个过程按预期工作。

def transform(self, X_DF):
    ''' Update X_DF to have set of dummy-variables instead of orig column'''        

    # convert self-attribute to local var for ease of stepping through function
    column = self.column

    # add columns for new dummy vars, and drop original categorical column
    dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

    return dummy_matrix

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46781448

复制

相似问题

问自定义Sklearn转换器单独工作，在管道中使用时抛出错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自定义Sklearn转换器单独工作，在管道中使用时抛出错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自定义Sklearn转换器单独工作，在管道中使用时抛出错误
EN