据我所知,时间序列的标准流程是将数据集划分为培训和验证(例如,60%和20% ),最后20%用于无偏测试。
撇开百分比不谈,将测试分成2块是否有好处?例如,10%在中间,10%在最后。或者只是使用20%的中间。任何简单的理论参考检查也将不胜感激。
发布于 2023-02-18 10:01:36
将测试集在中间和结尾分成两个单独的块可能不会带来任何额外的好处,甚至可能会引入一些bias,因为它可能不能反映预测未来观测的真实场景。在某些情况下,研究人员可以使用交叉验证方法将数据分割成多个折叠,在不同的数据子集上对模型进行训练和评估。
通常,分割方法的选择取决于具体问题和所使用的数据。重要的是要仔细考虑不同的分割方法所带来的权衡和潜在的偏差,并选择最适合于当前问题的方法。
关于这一主题的一些参考资料包括:
第8章的书"Hands-On Time Series Analysis with R" by Rami Krispin,其中涉及时间序列数据分裂和交叉验证.本文利用"A comparative study on time series data prediction using traditional and deep learning methods" ( Anjana R. Nair )和Jyothi R. Nair,讨论了不同的数据分割方法对时间序列预测性能的影响。
https://datascience.stackexchange.com/questions/118598
复制相似问题