我连接了3个股票报价数据帧,所有的日期-时间索引。但是,它们的开始日期不同,因此结果数据框架包含了股票报价的NaN值和最近的开始日期。

我应该直接使用NaN删除行,并使用所有值都有值的行启动新的数据框架,还是有方法填充它们?我计划利用这些数据来训练一个预测未来股票行情的神经网络。
发布于 2020-01-05 13:36:37
用时间序列模型填充基于已经开始的引用的nan是可能的,但是它不会带来您可以学习的新信息。充其量,它将混淆该模型在这一时期所学到的东西。
然后,有一个关于性能的更普遍的问题:模型是否在重构数据的周期内表现得更好?只有你才能解决这个问题.但我不确定你想知道这个问题的答案。国际海事组织的方法是放弃这段时间,看看你的表现是否符合你的需要。如果不是这样,那么您应该考虑一些方法来累积更多的数据。
在这种情况下,我建议如果您想使用神经网络,或者使用接受NaN作为输入的方法(例如,Xgboost),我建议直接删除Nan。
https://datascience.stackexchange.com/questions/51451
复制相似问题