首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ML回归不良性能

ML回归不良性能
EN

Data Science用户
提问于 2019-02-13 21:30:54
回答 2查看 549关注 0票数 4

我正在试验3年时间序列电力需求数据(kW)的建筑物,并试图建立回归监督的ML模型,从sci工具包学习回归算法,但我有很差的性能(非常高的均方误差)。我有一本GitHub Gist的整个IPython笔记本这里

这里没有太多的智慧(我没有其他人可以咨询),除了我知道电力咨询行业使用的是成熟的分析软件(需求预测)之外,我只是尝试用Python从头开始重新创建自己的实验方法。

我正在处理的数据如下所示,每隔15分钟记录一次。

代码语言:javascript
复制
            Date_Time    kW
0 2011-03-01 00:15:00 171.36
1 2011-03-01 00:30:00 181.44
2 2011-03-01 00:45:00 175.68
3 2011-03-01 01:00:00 180.00

kW数据的分布类似于下面的图,它似乎没有钟形曲线:(这是否是性能不佳的原因?)

编辑滚动平均图

在我的实验中,我还添加了额外的Pandas数据,以表示时间戳“一周中的一天”、“小时”、“分钟”和“月份”的整数值;在逻辑上,我知道电力需求在很大程度上取决于这些变量。以下是一些与kW相比的数据散点图。(这可能会把一切搞砸),例如,下面的第一个散射点是一天中的一个小时,这是典型的建筑,在一个典型的工作日里,电力需求会增加。异常值很可能是极端天气条件造成的高需求,在这里我没有任何天气数据.

在python中,如果我执行一个df.describe

最后,我希望有人能给我一些提示,为什么这个模型是可怕的,但可能只是因为没有足够的数据和/或策略。另一个我一直在询问的人使用了一种无监督的聚类学习方法,但这对我来说毫无意义.

机器学习掌握也有一个迷你课程和一本大的书,我可以在时间序列预测上购买。这更像是一种统计方法吗?数据是否需要更多的“正常”钟形分布?

任何尝试或前进的方法都会受到极大的赞赏:)

编辑GitHub gist更新为数据的滚动平均值以及kW数据的分布列图。

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-08-02 05:36:36

我知道你在选择回归model.But之前一定研究过,我想在这里强调一件事,因为这些数据是时间序列1,我们在这里必须更加小心,使用考虑移动平均和其他时间序列因素的模型。同时,交叉验证对于时间序列分析也是不同的。尽管如此,如果您的目标是具有更高的精度,请使用其他模型,如ARIMA或SARIMA为您的时间序列。

票数 0
EN

Data Science用户

发布于 2019-02-14 19:41:44

在我看来,你这样做的前提是有潜在缺陷的。听起来你在尝试复制电力公司可以生成的一些信息,但是他们正在使用比你在这里提供的更广泛的数据集。反过来,这也是为什么你的准确率如此差的原因之一。

例如,考虑到天气对用电有影响。因此,除非你在某一时刻对天气数据争论不休,否则你将(1)很可能永远无法获得最精确的模型(可能只是“足够的”)和(2)最有可能永远不会接近你的电力公司所能产生的结果。

因此,我会退一步,考虑当前的数据点;很可能您只是没有合适的因素来创建您所寻求的精确模型。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/45540

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档