假设您有一个包含365个观测值的时间序列,一年中每一天一次,然后在训练集中拆分前183行,在测试集中拆分最新的182行。
假设您创建了一个AR (自回归模型),并将模型的顺序设置为4。
在这种情况下,有可能对测试集的第一次观测做预测吗?基本上是184行,我认为不,因为我们没有y(t-1),.,y(t-4),但是我们只有y(T)=184观测值。
所以,我们可以预测的第一行是第188排,对吗?因为:
y(t-1)=value of 187^{th}行
186^{th}行的
185^{th}行的
184^{th}行的
我认为到目前为止是正确的。如果我错了,请纠正我。
但如果我想预测乳房。184,第一个测试集,有什么办法吗?我的意思是,不把模型的阶数从4降到1。
发布于 2021-03-16 10:01:54
显而易见的答案是使用培训数据集的最后4个数据点。请注意,这样做没有任何伤害或偏见。将数据集分解为训练和测试数据集的目的是对不同数据集进行估计和预测。
在您的模型中,因变量是y_5到y_{183}。另一方面,四个解释变量是:y_1-y_{179}、y_2-y_{180}、y_3-y_{181}和y_4-y_{182}。
因此,每个解释变量的测试数据集实际上分别从y_{180}、y_{181}、y_{182}和y_{183}开始。
因此,通过使用火车数据集的最后四个数据点,您不会在重新验证拟合数据的模型方面引入任何偏见。
https://datascience.stackexchange.com/questions/90703
复制相似问题