文章/答案/技术大牛

发布

社区首页 >问答首页 >ML回归不良性能

问ML回归不良性能
EN

Data Science用户

提问于 2019-02-13 21:30:54

回答 2查看 549关注 0票数 4

我正在试验3年时间序列电力需求数据(kW)的建筑物，并试图建立回归监督的ML模型，从sci工具包学习回归算法，但我有很差的性能(非常高的均方误差)。我有一本GitHub Gist的整个IPython笔记本这里。

这里没有太多的智慧(我没有其他人可以咨询)，除了我知道电力咨询行业使用的是成熟的分析软件(需求预测)之外，我只是尝试用Python从头开始重新创建自己的实验方法。

我正在处理的数据如下所示，每隔15分钟记录一次。

            Date_Time    kW
0 2011-03-01 00:15:00 171.36
1 2011-03-01 00:30:00 181.44
2 2011-03-01 00:45:00 175.68
3 2011-03-01 01:00:00 180.00

kW数据的分布类似于下面的图，它似乎没有钟形曲线：(这是否是性能不佳的原因？)

编辑滚动平均图

在我的实验中，我还添加了额外的Pandas数据，以表示时间戳“一周中的一天”、“小时”、“分钟”和“月份”的整数值；在逻辑上，我知道电力需求在很大程度上取决于这些变量。以下是一些与kW相比的数据散点图。(这可能会把一切搞砸)，例如，下面的第一个散射点是一天中的一个小时，这是典型的建筑，在一个典型的工作日里，电力需求会增加。异常值很可能是极端天气条件造成的高需求，在这里我没有任何天气数据.

在python中，如果我执行一个df.describe：

最后，我希望有人能给我一些提示，为什么这个模型是可怕的，但可能只是因为没有足够的数据和/或策略。另一个我一直在询问的人使用了一种无监督的聚类学习方法，但这对我来说毫无意义.

机器学习掌握也有一个迷你课程和一本大的书，我可以在时间序列预测上购买。这更像是一种统计方法吗？数据是否需要更多的“正常”钟形分布？

任何尝试或前进的方法都会受到极大的赞赏:)

编辑GitHub gist更新为数据的滚动平均值以及kW数据的分布列图。

python

scikit-learn

regression

supervised-learning

machine-learning

回答 2

Data Science用户

回答已采纳

发布于 2020-08-02 05:36:36

我知道你在选择回归model.But之前一定研究过，我想在这里强调一件事，因为这些数据是时间序列1，我们在这里必须更加小心，使用考虑移动平均和其他时间序列因素的模型。同时，交叉验证对于时间序列分析也是不同的。尽管如此，如果您的目标是具有更高的精度，请使用其他模型，如ARIMA或SARIMA为您的时间序列。

票数 0

Data Science用户

发布于 2019-02-14 19:41:44

在我看来，你这样做的前提是有潜在缺陷的。听起来你在尝试复制电力公司可以生成的一些信息，但是他们正在使用比你在这里提供的更广泛的数据集。反过来，这也是为什么你的准确率如此差的原因之一。

例如，考虑到天气对用电有影响。因此，除非你在某一时刻对天气数据争论不休，否则你将(1)很可能永远无法获得最精确的模型(可能只是“足够的”)和(2)最有可能永远不会接近你的电力公司所能产生的结果。

因此，我会退一步，考虑当前的数据点；很可能您只是没有合适的因素来创建您所寻求的精确模型。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/45540

复制

相似问题

问ML回归不良性能
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ML回归不良性能EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ML回归不良性能
EN