首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >拾取训练数据

拾取训练数据
EN

Data Science用户
提问于 2016-09-13 23:51:04
回答 1查看 65关注 0票数 0

假设我想拥有80%的训练数据和20%的测试数据。如何选择80%的数据用于培训?应该是完全随机的吗?比如,如果有一个包含2个集群的类标签,而我们随机选择的80%的培训数据只捕获其中一个集群,那该怎么办?

EN

回答 1

Data Science用户

发布于 2016-09-14 01:40:13

为了进行验证,您可以选择不同的方法,如k-fold cross validationrepeated splitsBootstrapping。似乎你的目标是做两倍交叉验证,是的,它应该是随机的。您应该小心,而且您的培训数据和测试数据看起来都是非常different.In的--在这种情况下,您将不会有一个具有良好performance.Try的模型来找到一种方法,使您的培训数据看起来更像您想要实现模型的数据。在这种情况下,您可能需要尝试10次交叉验证(例如)

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13984

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档