所以我试着用Apache的时间序列数据来预测电力消耗。数据样本如下:
03.01.15;22:30;236,25
03.01.15;22:15;240
04.01.15;16:00;243,775等了两年。我每15分钟有一次观察
预测电力消耗的最佳方法是什么?
我试过LinearRegression,Decision trees等,我总是能得到巨大的MSE (788)。我试着用几个月、几天、几个小时、几分钟作为OneHotEncoder。我只做了几个星期的预报。
数据year、month、day的方法
[2014.3996710526321,5.726973684210525,15.713815789473673]数据year、month、day的方差
[0.2403293809070049,10.218579294199253,77.46326844706495]检验均方误差
788.2397552290726如果我像LabeledPoint(236.25, 2015.0,1.0,3.0,22.0,30.0))那样直接传递值,那么MSE就会上升到1280.8。如果我传递给模型,每天只有一个观察,这是它没有帮助的最大值。
但是,如果我使用KNIME并尝试时间序列的例子,但是对于我的数据,它们没有考虑日期和时间,而是延迟了每个观察的功耗。
我看到Cloudera有一个用于Time Series的库,但我不明白为什么我需要它。
有人能描述一下对时间序列数据做好预测的过程吗?最后,我想输入一个日期和时间,并得到一个预测。
发布于 2017-03-31 14:01:29
我对你的问题有很多疑问,但让我试着处理你给我的东西。
,首先,让我们概括一下这个问题。
您有<timestamp>, <value>表单中的数据。假设数据每15分钟收集一次,为期2年,则样本大小为(4 X 24 X 365 X 2) 70080次观测(行)。
假设你想建立一个回归模型来预测它的行为。
首先,您需要将数据集划分为培训和测试集。使用培训集开发模型,并在测试集上测试模型。我建议9点1分开。
Q1.这就是你所采取的方法吗?
MSE是根据测试集中的实际值使用预测值计算的。
Q2.您提到了MSE -我不知道这是如何计算的(只提供了3个数据点)或您正在使用的值的范围。请您确认您的错误是如何计算的,以及最小化标准是什么?
如果线性回归失败(无法成功地预测移动),那么您的模型可能过于简单--尝试使用MLP或将回归模型与贝叶斯模型相结合(因为功耗是一个连续函数)。
https://stackoverflow.com/questions/35241173
复制相似问题