在MNIST数据集中,有10个分类输出。现在,我喜欢使用支持向量机作为这个分类任务的分类器。我首先使用CNN结构(不包括顶层或分类器)从原始图像中提取特征,然后将其应用到SVM分类器中。
支持向量机是一种二进制分类器,因此我们可以使用1-VS-One或One-vs-Rest方法来进行这类工作。我使用以下实现代码从sci学习官方文档。但是我没有意识到我指定在哪里建立多类标签的模型,或者这是One或One Rest方法。
数据集形状如下所示:
train : (2045, 32, 32)
label : (2045, 10)在使用非顶级CNN代码提取特征后,我们得到:
train : (7636, 256) < - cnn_Xtrain
label : (7636,) < - Ytrain我尝试过的SVM分类器
# SVC classifier
SVMC = SVC(probability=True)
svc_param_grid = {'kernel': ['rbf'],
'gamma': [0.0001, 0.001],
'C': [1, 10, 50]}
gsSVMC = GridSearchCV(SVMC, param_grid = svc_param_grid, cv = K_fold,
scoring="accuracy", n_jobs= -1, verbose = 1)
gsSVMC.fit(cnn_Xtrain, Ytrain) # fitting extracted features
SVMC_best = gsSVMC.best_estimator_在这个分类器中,支持向量机如何理解这是一个多类问题,还是一个vs一个或一个vs rest问题?得分结果对我来说更令人怀疑,我对几乎98%的分数进行了评估。在网格搜索( RBF )中指定的内核对此负责吗?还是我在这里做错了什么?
另外,利用CNN编码从原始图像中提取特征,并将其应用到SVM或类似分类器中,效果好吗?
发布于 2019-01-15 09:53:20
在分类器的“decision_function_shape”参数中设置使用1-VS-rest或one-vs-1的决策天气(参见用于svc的doc)。该条规定:
是否将形状的1-VS-rest(‘ovr’)判定函数(n_samples,n_classes)作为所有其他分类器返回,还是返回形状为(n_samples,n_classes * (n_classes - 1) / 2)的libsvm的原始-vs(‘ovo’)决策函数。然而,1-vs-One(“vs”)一直被用作多类策略.在0.19版本中更改:默认情况下,decision_function_shape是‘ovr’。建议在0.17版中新增:=‘ovr’。在0.17版本中更改:取消推荐的=‘ovo’而没有更改。
因此,现在一个vs rest是默认的,而且由于您没有指定这个参数,这可能是代码中使用的参数。
至于你关于在拟合前使用CNN进行特征提取的问题:一般来说,它应该是有效的。但是,使用正确的内核并不是真正必要的。如果您想减少特征向量的维数,只需使用主成分分析或像流形嵌入这样的非线性嵌入方法来获得更少的特征。
希望这能有所帮助。
https://stackoverflow.com/questions/54195650
复制相似问题