我对这样的面板数据很陌生,在不同的季度,我对同一ID进行了多次观察,我不知道我能应用什么样的机器学习算法。
我有从1-18季度到4-2020年的数据。
我有2,000,000行和200,000个唯一的id和20列
对于每个id,我只有6-8的上一季度值,每个id的最大四分之一是8/4,对于某些id,我只有6/4,而该id没有几个四分之一的值。
下面是我的数据集的基本概念
季度-该年度相应的业务季度
目标-是按比例计算的销售量。
我正试图预测2021年Q1季度的目标列
我有8-10个不同的数字列,状态、季度和ID作为类别列。
如果有人能建议我做什么样的模特,我将不胜感激。

发布于 2021-02-19 19:09:33
您的数据是混合效应模型的一个很好的候选。
你有两个潜在的随机效应,看起来是交叉的:我认为ID是一种,状态是另一种,因为任何ID似乎都可以属于任何状态。
本质上,您可以利用这样的事实:某些状态和一些in的数据将比其他状态更少(通常,一些状态和in会比其他状态和in变化更大)。表现出这种特征的状态和ID将得到其他状态和ID(称为部分池)的支持。您还需要使用时间作为变量(可能将季度转换为2019.25、2019.5等,或者使用两个时间变量-年份,季度),因为您希望预测下一个时间段。
我认为广义线性混合效应模型可以扩展到200万个观测量。也有允许混合效应的机器学习方法:混合效应随机森林(MixRF)、混合效应梯度增强(GPBoost/mboost),当然,您也可以使用完全贝叶斯(虽然您可能需要使用近似方法,因为您的数据很大)。ML模型可能会扩展得更好。
https://datascience.stackexchange.com/questions/89607
复制相似问题