我正在尝试不同的分类器,在作为课程项目一部分提供给我们的数据集上具有不同的参数和内容。我们必须试着在数据集上获得最好的性能。数据集实际上是网上新闻受欢迎的简化版本。
我尝试过支持向量机,随机森林,支持向量机,交叉验证的k=5,它们似乎都给出了大约100%的训练准确率,而测试的准确率在60-70之间。我认为测试的准确性很好,但是训练的准确性让我很困扰。我想说的是,这可能是一种数据过度拟合的情况,但我的同学似乎都没有得到类似的结果,所以问题可能在于我的代码。
这是我的交叉验证和随机森林分类器的代码。如果你能帮我找出我为什么得到如此高的训练准确度,我将不胜感激。
def crossValidation(X_train, X_test, y_train, y_test, numSplits):
skf = StratifiedKFold(n_splits=5, shuffle=True)
Cs = np.logspace(-3, 3, 10)
gammas = np.logspace(-3, 3, 10)
ACC = np.zeros((10, 10))
DEV = np.zeros((10, 10))
for i, gamma in enumerate(gammas):
for j, C in enumerate(Cs):
acc = []
for train_index, dev_index in skf.split(X_train, y_train):
X_cv_train, X_cv_dev = X_train[train_index], X_train[dev_index]
y_cv_train, y_cv_dev = y_train[train_index], y_train[dev_index]
clf = SVC(C=C, kernel='rbf', gamma=gamma, )
clf.fit(X_cv_train, y_cv_train)
acc.append(accuracy_score(y_cv_dev, clf.predict(X_cv_dev)))
ACC[i, j] = np.mean(acc)
DEV[i, j] = np.std(acc)
i, j = np.argwhere(ACC == np.max(ACC))[0]
clf1 = SVC(C=Cs[j], kernel='rbf', gamma=gammas[i], decision_function_shape='ovr')
clf1.fit(X_train, y_train)
y_predict_train = clf1.predict(X_train)
y_pred_test = clf1.predict(X_test)
print("Train Accuracy :: ", accuracy_score(y_train, y_predict_train))
print("Test Accuracy :: ", accuracy_score(y_test, y_pred_test))
def randomForestClassifier(X_train, X_test, y_train, y_test):
"""
clf = RandomForestClassifier()
clf.fit(X_train, y_train)
y_predict_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
print("Train Accuracy :: ", accuracy_score(y_train, y_predict_train))
print("Test Accuracy :: ", accuracy_score(y_test, y_pred_test))发布于 2018-04-28 03:58:26
在这个问题上有两个问题,训练的准确性和测试的准确性有很大的不同。
由于您应用了交叉验证,似乎应该考虑另一个解决方案。我建议您应用一些特征选择或特征约简(如PCA)方法来解决过度拟合问题。
https://stackoverflow.com/questions/50072501
复制相似问题