文章/答案/技术大牛

发布

社区首页 >问答首页 >在唯一id有6-8条记录且总记录为2,000,000条的面板数据上应用哪种模型？

问在唯一id有6-8条记录且总记录为2,000,000条的面板数据上应用哪种模型？
EN

Data Science用户

提问于 2021-02-19 14:27:03

回答 1查看 141关注 0票数 1

我对这样的面板数据很陌生，在不同的季度，我对同一ID进行了多次观察，我不知道我能应用什么样的机器学习算法。

我有从1-18季度到4-2020年的数据。

我有2,000,000行和200,000个唯一的id和20列

对于每个id，我只有6-8的上一季度值，每个id的最大四分之一是8/4，对于某些id，我只有6/4，而该id没有几个四分之一的值。

下面是我的数据集的基本概念

季度-该年度相应的业务季度

目标-是按比例计算的销售量。

我正试图预测2021年Q1季度的目标列

我有8-10个不同的数字列，状态、季度和ID作为类别列。

如果有人能建议我做什么样的模特，我将不胜感激。

data-science-model

machine-learning

deep-learning

time-series

lstm

回答 1

Data Science用户

发布于 2021-02-19 19:09:33

您的数据是混合效应模型的一个很好的候选。

你有两个潜在的随机效应，看起来是交叉的:我认为ID是一种，状态是另一种，因为任何ID似乎都可以属于任何状态。

本质上，您可以利用这样的事实:某些状态和一些in的数据将比其他状态更少(通常，一些状态和in会比其他状态和in变化更大)。表现出这种特征的状态和ID将得到其他状态和ID(称为部分池)的支持。您还需要使用时间作为变量(可能将季度转换为2019.25、2019.5等，或者使用两个时间变量-年份，季度)，因为您希望预测下一个时间段。

我认为广义线性混合效应模型可以扩展到200万个观测量。也有允许混合效应的机器学习方法:混合效应随机森林(MixRF)、混合效应梯度增强(GPBoost/mboost)，当然，您也可以使用完全贝叶斯(虽然您可能需要使用近似方法，因为您的数据很大)。ML模型可能会扩展得更好。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/89607

复制

相似问题

问在唯一id有6-8条记录且总记录为2,000,000条的面板数据上应用哪种模型？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在唯一id有6-8条记录且总记录为2,000,000条的面板数据上应用哪种模型？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在唯一id有6-8条记录且总记录为2,000,000条的面板数据上应用哪种模型？
EN