我正在建立一个人工神经网络模型来预测股票走势。我输入的数据是每周股票价格(公开,收盘,高和低),交易量,和其他基本比率(总共11个特征),在过去20年的211只股票(未清理)。
我如何组织我的数据在一个单一的数据,以清理它?
目标是清理数据,减少维数(特征选择),然后对模型进行处理。
发布于 2022-07-18 16:29:20
Kaggle拥有与清理数据集相关的大量资源。一种很好的方法是以一种有意义的方式聚合所有相关数据,然后开始分析缺失值、缩放/规范化和编码的清理过程。记住,您以后有兴趣使用哪些模型来创建您的时间序列,并了解它们最适合使用的数据类型。这可能需要将一些连续的数据转换成更离散的形式。
具体来说,关于安全相关数据的分析和清理,我强烈建议您查看QuantConnect,因为它们有很多特定于该主题的教程。
EDA将帮助您选择重要的功能,并确定最佳的方法来设计它们,减少您的需求。如果不首先找到每个特性的重要性,就很难确定模型的最佳特性。如果你是EDA的新手,也许可以看看熊猫的概况,因为它提供了一些有用的洞察力。
https://stackoverflow.com/questions/73025427
复制相似问题