我有一个门控递归单元(GRU)模型,我做了两个版本,每个版本略有不同。当我运行这两个版本时,版本1给我的验证均方误差(MSE)是0.0013,而版本2给我的是0.0015。这意味着版本1是一个更好的模型。但是,当我使用测试数据帧运行model.evaluate(X_test,y_test)时,Version给我的MSE值是0.0027,而Version 2给我的MSE值是0.0018。
我的问题是,在使用测试数据框架进行预测时,哪个版本被认为是更好的版本,哪个版本提供了更好的验证MSE,或者哪个模型提供了较低的MSE
谢谢。
发布于 2020-03-14 14:13:23
首先,您不能在测试集上作弊,并选择模型,以便它在测试中提供最佳结果。验证的目的就是为了达到这个目的,而测试只是为了检查验证和测试之间的关系。
您没有提到训练、验证和测试的规模。在训练、验证和测试中,您使用的数据的大小非常重要,足以表示数据的真实分布。
另一方面,采样数据的方式应该以三个集合具有相同分布的方式进行。
最后,同样重要的是,您正在比较两个MSE相差约0.0002的结果。我不相信它能让你很好地判断哪一个更好。
https://stackoverflow.com/questions/60679791
复制相似问题