我想让你思考一下我一直面临的一个问题。我有日常水平的产品销售信息(大约4年)。销售受到典型因素的影响,如季节性、周数、“质量”、营销支出(有时事前看不见,这使其成为一个令人困惑的变量,可能会产生因果推理类型方法或潜在的变量方法)。
然而,主要的挑战是每种产品只销售8-12周(短生命周期产品,易腐产品)。这是每种产品的整个生命周期。问题是,在特定的一天,预测个别产品的销售情况,然后把它们加起来,找出销售商(销售这些产品的人)的总销售额。我们知道什么类型的产品将推出,但我们不知道产品的确切质量或营销支出前。其他的变数,如市场潜力、放假日、假期等,我们通常都知道。
请注意,产品的销售量在第一至第二周内很高,然后随着时间的推移而减少(衰减系数),并不是所有的产品都是相似的,也就是说,这些曲线不能成功地平均产生一条具有代表性的曲线。
注意:我们尝试了基于回归的方法(有很高的误差),以及Kaggle最喜欢的XGBoost算法(和RF)来学习非线性,但问题是生命周期短,会产生许多异常数据点(这意味着从业务角度来看,它们实际上不是异常值)。开放尝试RNN,LSTM等,如果它们是正确的方法。
提前谢谢!!
发布于 2019-05-29 22:44:23
因此,本质上,你有一个产品i,每个产品都有一个很短的时间维t。不清楚这是什么,但是如果你(看起来是这样)在整个时间里(以及由此产生的产品)集中在一起,你就会混淆不同的产品i。如果有任何关于每种产品的质量(决定需求)的信息,你可以根据产品I的质量来区分,然后看看需求(由质量控制)是如何随时间变化的(在提供产品的时候)。因此,你不应该堆叠产品随着时间的推移,但看看你是否可以解释如何确定每一个单一产品的需求。本质上,你有很多短暂的时间序列。您应该看看这些时间序列之间的销售水平中的驱动程序是什么。
https://datascience.stackexchange.com/questions/52870
复制相似问题