我现在正在学习线性回归。我使用R在一组火车模型上建立线性模型,并尝试根据测试数据预测()数据。
我的问题是:我理解如何收集列车数据。但测试数据是怎么回事?它是怎么收集起来的?是建立测试数据,还是收集测试数据,还是预测测试数据?
PS:我是用自学的方法学习数据科学的,所以我的知识缺乏结构。我可能在一个地方知道一些事情,而在另一个地方却缺乏知识。请原谅并指导。谢谢。:)
发布于 2015-06-28 16:14:24
通常,您会将可用的数据随机分成以下3组。培训,验证和测试。根据手头数据的总量和问题的难度,可以使用不同的比率。您可以从简单的80%/10%/10%拆分开始。使用前两组来构建模型。因此,您可以使用数据的80%分割来构建一个逻辑回归模型。现在,您使用10%的验证集来查看您的模型有多好。您可以在此过程中迭代,直到您对模型的验证数据集性能感到满意为止。
现在,您使用最后一组(“测试”拆分)来查看您的模型将如何在“未见”数据集上进行泛化。在这里,看不见意味着,在学习阶段,您的模型从未访问过“查看”此数据。。您从来没有使用这第三套收集知识,如何您的模型可以得到改善。将此集合想象为您的客户拥有的集合,您没有权限,并且您将向谁交付您的模型。
一旦您掌握了这个概念,还可以了解更多关于如何在数据有限的情况下执行交叉验证并提高对模型的信心的知识。
https://datascience.stackexchange.com/questions/6244
复制相似问题