我正在研究一个股票市场决策系统。我目前集中在梯度提升作为可能的最佳机器学习解决方案的问题。
然而,我对我的数据有两个根本性的问题,因为它来自股票市场,而不是IID。
首先,由于在某些指标使用的平均持续时间,一些数据点高度相关.例如,如果一个月前衡量的话,一只股票的两年后继回报率并没有太大的不同。我的理解是,这需要一个抽样(对于组件),在那里我选择“很远”的数据点,以使树更独立。据我所知,到目前为止,Matlab还没有用这个标准来选择随机子空间的功能。当我以前考虑使用简单的套袋的时候,我想我可以自己从定制的子空间中建立树,并将它们聚合成一个整体,但是如果我想要做梯度增强的话,这是行不通的。现在,在这一点上,我不完全确定“遥远”的样品是否如此重要。我的直觉是,如果他们是更好的,但即使他们可能不是通过正确的比例的数据抽样和有足够的树,它提供了同样的结果。我希望任何关于这个问题的洞察力,以及我如何能够在matlab中使用LSboost的定制样本。(我的一个想法是创建一个小数目,比如5-10个自定义样本,对每个样本使用LS-Boost,然后对它们进行平均。)
第二个根本问题是,来自给定股票的数据是相关的/相关的。经过思考后,我意识到这是至关重要的。考虑一下,如果有足够的数据,最好只从培训数据或主要从A类股票中预测A类股票,而不是使用整个市场。因此,我一直在考虑一个“系统”,在这个系统中,我对特定于股票的数据、股票组数据(我使用一种特殊的算法对股票进行分组)以及整个市场进行培训,然后使用一种计算(如果感兴趣的话,我可以详细说明)来确定这些模型中哪一个更有可能获得更好的结果。例如,如果输入与特定于股票的培训数据非常不同,那么它将使用组或整个市场。我非常确信,某种形式的考虑到系统所关注的库存对于优化性能是非常重要的。
现在,关于第二个问题,问题是组织这个问题的最佳方式是什么。天真地思考,简单地将类别提供给预测器是很好的,该预测器可以指示它正在观察的股票。然而,从我对这些算法的了解来看,我认为这会在新数据上产生不好的结果,因为这个预测器会假设它已经看到了每只股票的全部潜在结果,而很多时候情况并非如此。(假设有一只有着一年历史的大反弹股票--不管新数据看上去有多大不同,系统都会认为涨势会持续下去)。所以我觉得我必须像上一段那样做一些事情。我不知道系统是否有办法“自动”识别新数据与特定于股票的数据有足够的相似之处,从而将注意力集中在特定于股票的预测上,而不是在不同的情况下,它应该进入多只股票的默认系统。
如果您对这些问题有任何见解和/或如何在Matlab或其他方面解决这些问题,我将非常感谢。提前谢谢。
最好的,迈克
发布于 2022-04-09 15:44:23
股票市场数据本质上是时间序列数据。用旨在处理这些问题的时间序列算法对股市数据进行建模将更为有用。
https://datascience.stackexchange.com/questions/6021
复制相似问题