首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >时间序列测试数据集背后的理论是最后的x%

时间序列测试数据集背后的理论是最后的x%
EN

Data Science用户
提问于 2023-02-17 22:10:23
回答 1查看 21关注 0票数 0

据我所知,时间序列的标准流程是将数据集划分为培训和验证(例如,60%和20% ),最后20%用于无偏测试。

撇开百分比不谈,将测试分成2块是否有好处?例如,10%在中间,10%在最后。或者只是使用20%的中间。任何简单的理论参考检查也将不胜感激。

EN

回答 1

Data Science用户

发布于 2023-02-18 10:01:36

将测试集在中间和结尾分成两个单独的块可能不会带来任何额外的好处,甚至可能会引入一些bias,因为它可能不能反映预测未来观测的真实场景。在某些情况下,研究人员可以使用交叉验证方法将数据分割成多个折叠,在不同的数据子集上对模型进行训练和评估。

通常,分割方法的选择取决于具体问题和所使用的数据。重要的是要仔细考虑不同的分割方法所带来的权衡和潜在的偏差,并选择最适合于当前问题的方法。

关于这一主题的一些参考资料包括:

第8章的书"Hands-On Time Series Analysis with R" by Rami Krispin,其中涉及时间序列数据分裂和交叉验证.本文利用"A comparative study on time series data prediction using traditional and deep learning methods" ( Anjana R. Nair )和Jyothi R. Nair,讨论了不同的数据分割方法对时间序列预测性能的影响。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118598

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档