我建立了一个预测模型来预测呼叫数据。预测模型采用随机森林回归模型。
资料:自2013年以来,我每天都有15分钟的通话记录。
以下是几个月累积价值的图表:

可以清楚地看到,2017年的呼叫数据比2016年几乎翻了一番。这一趋势在今后几年也应可观察到。
特征:
首先,我的数据格式:
DATE CALL
....
2017-10-23 10:15:00.000 259
2017-10-23 10:30:00.000 292
2017-10-23 10:45:00.000 309
....从中我提取了以下特征:我提取了以下特征来预测我的目标变量Y(调用数据):
-Weekday
-Month
-Holiday (yes / no)
-Interval of the day
So I ask my model:
What is the call volume of a day and interval with the following features?我用了2015-2016-2017年的时间来训练这个模型。然而,该模型并没有给出预期的预后。
他甚至把2017年的日子预测错了。虽然我把数据作为训练数据给了他。
问题:
- Should I work on my features?
- How do I show my forecasting model that the data will double year by year
as observable since 2016?发布于 2017-11-16 09:32:46
在开始建模之前,我想你可以做更多的探索性分析(一个月一个月,一年一个一年)。如果你发现任何趋势或季节性等等。
为什么你不使用ARIMA,ARMA,指数平滑和AR等技术直接使用RF。
有时候RF可能不会给你像基本模型那样好的结果,我认为你没有趋势,这是从你的图表(但不确定)。如果你能尝试做一些研究,看看是否有一些外部因素影响你的需求。为什么会发生这种情况,其根本原因是什么。
对于您的模型来说,它需要一些特性来解释它的尖峰,它可以通过做特性工程/研究来实现。
https://datascience.stackexchange.com/questions/24804
复制相似问题