问训练准确率为100%，测试准确率为60%
EN

Stack Overflow用户

提问于 2018-04-28 03:16:24

回答 1查看 3.6K关注 0票数 2

我正在尝试不同的分类器，在作为课程项目一部分提供给我们的数据集上具有不同的参数和内容。我们必须试着在数据集上获得最好的性能。数据集实际上是网上新闻受欢迎的简化版本。

我尝试过支持向量机，随机森林，支持向量机，交叉验证的k=5，它们似乎都给出了大约100%的训练准确率，而测试的准确率在60-70之间。我认为测试的准确性很好，但是训练的准确性让我很困扰。我想说的是，这可能是一种数据过度拟合的情况，但我的同学似乎都没有得到类似的结果，所以问题可能在于我的代码。

这是我的交叉验证和随机森林分类器的代码。如果你能帮我找出我为什么得到如此高的训练准确度，我将不胜感激。

def crossValidation(X_train, X_test, y_train, y_test, numSplits):
    skf = StratifiedKFold(n_splits=5, shuffle=True)
    Cs = np.logspace(-3, 3, 10)
    gammas = np.logspace(-3, 3, 10)

    ACC = np.zeros((10, 10))
    DEV = np.zeros((10, 10))

    for i, gamma in enumerate(gammas):
        for j, C in enumerate(Cs):
            acc = []
            for train_index, dev_index in skf.split(X_train, y_train):
                X_cv_train, X_cv_dev = X_train[train_index], X_train[dev_index]
                y_cv_train, y_cv_dev = y_train[train_index], y_train[dev_index]
                clf = SVC(C=C, kernel='rbf', gamma=gamma, )
                clf.fit(X_cv_train, y_cv_train)
                acc.append(accuracy_score(y_cv_dev, clf.predict(X_cv_dev)))

            ACC[i, j] = np.mean(acc)
            DEV[i, j] = np.std(acc)

    i, j = np.argwhere(ACC == np.max(ACC))[0]
    clf1 = SVC(C=Cs[j], kernel='rbf', gamma=gammas[i], decision_function_shape='ovr')
    clf1.fit(X_train, y_train)
    y_predict_train = clf1.predict(X_train)
    y_pred_test = clf1.predict(X_test)
    print("Train Accuracy :: ", accuracy_score(y_train, y_predict_train))
    print("Test Accuracy  :: ", accuracy_score(y_test, y_pred_test))


def randomForestClassifier(X_train, X_test, y_train, y_test):
    """

    clf = RandomForestClassifier()
    clf.fit(X_train, y_train)
    y_predict_train = clf.predict(X_train)
    y_pred_test = clf.predict(X_test)
    print("Train Accuracy :: ", accuracy_score(y_train, y_predict_train))
    print("Test Accuracy  :: ", accuracy_score(y_test, y_pred_test))

scikit-learn

python

machine-learning

回答 1

Stack Overflow用户

发布于 2018-04-28 03:58:26

在这个问题上有两个问题，训练的准确性和测试的准确性有很大的不同。

培训数据和测试数据的不同分布。(因为选择了数据集的一部分)
模型对训练数据的过度拟合。

由于您应用了交叉验证，似乎应该考虑另一个解决方案。我建议您应用一些特征选择或特征约简(如PCA)方法来解决过度拟合问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50072501

复制

相似问题

问训练准确率为100%，测试准确率为60%
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问训练准确率为100%，测试准确率为60%EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问训练准确率为100%，测试准确率为60%
EN