问拾取训练数据
EN

Data Science用户

提问于 2016-09-13 23:51:04

回答 1查看 65关注 0票数 0

假设我想拥有80%的训练数据和20%的测试数据。如何选择80%的数据用于培训？应该是完全随机的吗？比如，如果有一个包含2个集群的类标签，而我们随机选择的80%的培训数据只捕获其中一个集群，那该怎么办？

machine-learning

training

回答 1

Data Science用户

发布于 2016-09-14 01:40:13

为了进行验证，您可以选择不同的方法，如k-fold cross validation、repeated splits和Bootstrapping。似乎你的目标是做两倍交叉验证，是的，它应该是随机的。您应该小心，而且您的培训数据和测试数据看起来都是非常different.In的--在这种情况下，您将不会有一个具有良好performance.Try的模型来找到一种方法，使您的培训数据看起来更像您想要实现模型的数据。在这种情况下，您可能需要尝试10次交叉验证(例如)

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/13984

复制

相似问题

问拾取训练数据
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拾取训练数据EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拾取训练数据
EN