我正在尝试训练一个神经网络来使用时间序列数据进行预测。我正在尝试训练一个神经网络来预测未来10分钟的温度,假设我有每5分钟的温度数据点,我想给它15分钟的数据用于预测,我拥有的数据是这样的。
1,2,3,4,5,6,7,8,9,10,11,12
因此,如果我在数据上进行训练,一个潜在的训练样本是1,2,3作为x,5作为y(因为它是未来的10分钟(两个5分钟的步长))。
我想要一种方法来训练所有可能的输入,如下所示。
[1,2,3][5]
[2,3,4][6]
[3,4,5][7]
[4,5,6][8]
[5,6,7][9]
[6,7,8][10]
[7,8,9][11]
[8,9,10][12]但我不想通过先将每个可能的示例保存到磁盘,然后从磁盘进行训练来进行训练。由于数据被复制,这会占用比所需更多的空间。我想在数据的某种预处理中做到这一点。
我找到的所有使用tensorflow输入管道的指令和示例,比如here https://www.tensorflow.org/guide/datasets,都使用“非重叠”数据,我找不到任何东西来处理我的场景。
我遇到的问题是,我真的不知道如何在不将大量重复数据保存到磁盘的情况下在tensorflow中设置这种重叠数据场景。如果任何人有任何关于如何做到这一点的最佳方法的链接或指南,我将非常感谢,谢谢。
发布于 2018-09-15 02:09:44
您可能正在寻找这个转换:https://www.tensorflow.org/api_docs/python/tf/contrib/data/sliding_window_batch
tf.contrib.data.sliding_window_batch(window_size=3, stride=1)https://stackoverflow.com/questions/52267407
复制相似问题