文章/答案/技术大牛

发布

社区首页 >问答首页 >如何提取重要的特征后，k-折叠交叉验证，有或没有管道？

问如何提取重要的特征后，k-折叠交叉验证，有或没有管道？
EN

Stack Overflow用户

提问于 2019-06-12 12:26:05

回答 1查看 1.6K关注 0票数 4

我想要构建一个使用交叉验证的分类器，然后从每个折叠中提取重要的特征(/coefficients)，这样我就可以查看它们的稳定性。目前，我正在使用cross_validate和管道。我想使用管道，以便我可以在每个折叠内进行特征选择和标准化。我被困在如何从每个褶皱中提取特征。我有一个不同的选择，使用管道下面，如果这是问题。

到目前为止，这是我的代码(我想尝试SVM和logistic回归)。我包括了一个小的df作为例子：

from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_classif
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
import pandas as pd

df = pd.DataFrame({'length': [5, 8, 0.2, 10, 25, 3.2], 
                   'width': [60, 102, 80.5, 30, 52, 81],
                   'group': [1, 0, 0, 0, 1, 1]})

array = df.values
y = array[:,2]
X = array[:,0:2]

select = SelectKBest(mutual_info_classif, k=2)
scl = StandardScaler()
svm = SVC(kernel='linear', probability=True, random_state=42)
logr = LogisticRegression(random_state=42)

pipeline = Pipeline([('select', select), ('scale', scl), ('svm', svm)])

split = KFold(n_splits=2, shuffle=True, random_state=42)

output = cross_validate(pipeline, X, y, cv=split, 
                scoring = ('accuracy', 'f1', 'roc_auc'),
                return_estimator = True,
                return_train_score= True)

我想我可以做这样的事：

pipeline.named_steps['svm'].coef_

但我收到了错误信息：

AttributeError: 'SVC' object has no attribute 'dual_coef_'

如果不可能使用管道来完成这个任务，我可以使用“手动”交叉验证吗？例如：

for train_index, test_index in kfold.split(X, y):

        kfoldtx = [X[i] for i in train_index]
        kfoldty = [y[i] for i in train_index]

但我不知道下一步该怎么办！任何帮助都将不胜感激。

python-3.x

scikit-learn

cross-validation

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-13 13:56:59

您应该使用output of cross_validate来获得拟合模型的参数。原因是cross_validate会克隆这条管道。因此，您将不会发现给定的pipeline变量是在被馈送到cross_validate之后被安装的。

output是字典，它将estimator作为键之一，其值为已安装的pipeline对象的k_fold数。

来自Documentation

return_estimator :布尔值，默认为False是否返回每个拆分上安装的估计器。

尝尝这个!

>>> fitted_svc = output['estimator'][0].named_steps['svm'] # choosing the first fold comb
>>> fitted_svc.coef_

array([[1.05826838, 0.41630046]])

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56562208

复制

相似问题

问如何提取重要的特征后，k-折叠交叉验证，有或没有管道？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何提取重要的特征后，k-折叠交叉验证，有或没有管道？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何提取重要的特征后，k-折叠交叉验证，有或没有管道？
EN