假设我想拥有80%的训练数据和20%的测试数据。如何选择80%的数据用于培训?应该是完全随机的吗?比如,如果有一个包含2个集群的类标签,而我们随机选择的80%的培训数据只捕获其中一个集群,那该怎么办?
发布于 2016-09-14 01:40:13
为了进行验证,您可以选择不同的方法,如k-fold cross validation、repeated splits和Bootstrapping。似乎你的目标是做两倍交叉验证,是的,它应该是随机的。您应该小心,而且您的培训数据和测试数据看起来都是非常different.In的--在这种情况下,您将不会有一个具有良好performance.Try的模型来找到一种方法,使您的培训数据看起来更像您想要实现模型的数据。在这种情况下,您可能需要尝试10次交叉验证(例如)
https://datascience.stackexchange.com/questions/13984
复制相似问题