我有一个温度数据集(每15分钟一次)来构建一个有监督的分类/预测算法,但我只知道一个真正的类(当数据接近于35度时)。
然而,鉴于有关这一主题的学术文献和数据可视化,它似乎有三个“真实”的类别:监管,次理想的监管,和没有监管。这是一个垂直线的图表,描绘了三个潜在的类别。

建立这个分类的最佳实践是什么?第一次尝试每6小时绑定一次数据,并构建基于stdev的类别,但这似乎有点武断,与三个假设类别不太一致。
发布于 2018-01-24 07:07:21
所以,如果我正确地理解了你,你想根据温度变化的频率和幅度来分类你的数据,对吗?
我认为您使用stdev的尝试并不遥远,但是您的间隔有点差,6个小时可能会太长。考虑到Shannon,如果您想要完全重构信号,您的采样率必须至少是数据集中最高频率的两倍。如果你的采样率是6小时,你可能会错过大的飞跃在图像的末尾。
我的建议是使用滑动窗口,并使用快速傅立叶变换获得频谱。使用这些数据点,您可以尝试使用支持向量机或kNN方法对它们进行聚类。我认为支持向量机是最好的选择,因为你的课应该是干净的。而且,由于您知道您有多少类,所以不需要对这个参数进行超调。
我当然不知道这是否是最佳实践,但我认为这是一种可行的方法。
发布于 2018-01-25 03:22:40
根据数据的采样率,我将创建一个新变量,其中使用跟踪窗口计算stdev,并使用stdev创建k均值集群。
基于视觉评估,您可以使用三个集群,但也可以尝试使用2或4个,并选择最小的WSS结果(在群平方和内)。
一旦找到了这些,就可以为每个集群分配一个类。然而,这种策略的问题在于,它只适用于具有类似stdev的未来数据。
https://datascience.stackexchange.com/questions/26978
复制相似问题