如果这是一个过于笼统的问题,我很抱歉,但是在我的模型中,我被困在完美和充分之间。所以我想在这里问一问。如果这不是一个合适的问题,你的负面反馈都是欢迎的,对不起。但从理论上讲,主题在灰色地带内,我认为所有的评论都是有价值的。据我所知,使用ML进行预测并不是一种普遍的方法。
我们的销售团队在每年年初发布一份预测报告。但它大多与现实相去甚远,不太科学。它还包括主观评价。
我们决定建立一个ML模型来进行预测。不是一个经典的预测,因为有许多输入变量可以影响输出。所以,这实际上是一个实验项目。
到目前为止,我已经开发了一个足够的模型,它已经比销售的要好得多。但我仍然认为它不是一个好的,只是足够。
数据包括以客户为基础的销售。所以有很多种组合。通过查看MachineLearningMastery.com上类似的应用程序,我开发了这样的模型:
客户自M9-M8.m1-月-季度- movingavg3 - mov6 - mov9 -movingavg3度假-movingavg3度假计数
m9到m1是之前9个月的销售预测月M(输出变量)M的大部分变化在0到800之间。例如,假期从0到6。我在0-1之间缩放了所有这些数值变量
按月对月的客户变量是绝对的,我使用了OneHotEncoding作为这些变量。
我对所有数据进行了洗牌,所以数据集中没有时间顺序依赖。
我把数据分成三个部分。1: 100以上平均3个月;2:10-100平均3: 0以下平均3个月。我为每3段运行不同的模型。
有许多0值,所以我首先使用一个LGBClassifier来确定销售是否为0。如果不是0,我将使用LGBRegressor来确定输入行的销售值。(SGDRegressor用于段1,它的性能更好)
我尝试将每个组合的MonthSeasonality索引和QuarterSeasinality索引作为变量添加到dataset中。但表现不太好。
我怎样才能得到更好的分数?我不是在问算法等等。我在这里的主要目的是了解数据集的构造、预处理。在应用ML算法之前,您对预处理技巧的宝贵想法。
谢谢
发布于 2020-02-21 00:17:29
恐怕您的数据可能过于复杂和具体,以致于其他人无法确切了解所发生的事情。
我能提出的唯一想法是尝试手动分析您的模型所产生的错误:
https://datascience.stackexchange.com/questions/68393
复制相似问题