我目前正在做一项需求预测任务,涉及数千家商店的数万种产品的数据。更确切地说,我有每一家商店每件产品3年的每日销售数据,我的目标是预测每一家商店的每件商品的未来销售额,提前一天,然后提前两天,等等。
到目前为止,我已经考虑过将每个产品商店对分解成一个时间序列,并对每个时间序列进行预测,就像Neal的论文“实时系统中多时间序列预测的智能技术”中所做的那样。换句话说,我将只使用某一商店销售该产品的历史信息来预测该商店未来的销售情况。
然而,我一直在浏览Kaggle,像Favorita Grocery公司销售预测这样的竞争提出了一种不同的方法,即利用所有商店和所有产品的信息来预测未来的销售。据我所知,所有商店的所有产品的历史销售信息都被丢弃在培训集中,从培训集中,模型将学会预测未来的销售额。它与传统的时间序列方法有很大的不同,但显然,根据比赛结果,它是可行的。
后一种方法看起来很有前途,而且更稳健。然而,需要处理数亿个数据点是有问题的。
哪种方法更适合我的任务?对于那些在类似问题上工作过的人,你会推荐哪种方法?
发布于 2018-05-24 09:33:30
我也处在类似的情况下。我有一个有商店数量和产品类别的数据集,我需要预测每个类别的每周销售额。你可能想要检查梯度增强算法和随机森林,这在预测精度方面给出了有希望的结果。此外,不管采用何种方法,最好的做法是创建虚拟变量,因为创建单个时间序列非常耗时。
https://datascience.stackexchange.com/questions/31267
复制相似问题