我有一个多元时间序列数据集。对于每个时间步骤,有11个特性和1个输出。我将使用监督ML来predect输出。我知道在单变量情况下,如果我要用过去的3天来预测t-天,数据集将被格式化为
x(t-3) | x(t-2) | x(t-1) | x(t)
, where x(t) is the output to predict. 当数据集是一个多变量问题时,我应该如何格式化它?
我看到在一些内核中,这个问题被格式化为
x12(t-3) | x12(t-2) | x12(t-1) | x1(t), x2(t), ..., x12(t)
, where x12(t) is the output to predict. 在这种情况下,过去3天的变量x1到x11被忽略了。
然而,在我的例子中,这些变量可能很重要。我能把问题格式化为
x1(t-3),...,x12(t-3) | x1(t-2), ..., x12(t-2) | x1(t-1),..., x12(t-1) | x1(t), x2(t), ..., x12(t) ?
(一些功能只是从日期时间索引中创建的日期、月份、周日等)
只有11个特征,是否有必要进行特征选择?
发布于 2019-07-19 15:28:47
关于如何处理多变量时间序列问题,我相信GitHub链接时态多元会有所帮助。
您必须将n_inputs和n_outputs分别更改为12和1。
https://datascience.stackexchange.com/questions/56003
复制相似问题