首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >创建分类变量,而不知道真正的类别(通过绑定时间序列数据)?

创建分类变量,而不知道真正的类别(通过绑定时间序列数据)?
EN

Data Science用户
提问于 2018-01-23 22:11:06
回答 2查看 159关注 0票数 0

我有一个温度数据集(每15分钟一次)来构建一个有监督的分类/预测算法,但我只知道一个真正的类(当数据接近于35度时)。

然而,鉴于有关这一主题的学术文献和数据可视化,它似乎有三个“真实”的类别:监管,次理想的监管,和没有监管。这是一个垂直线的图表,描绘了三个潜在的类别。

建立这个分类的最佳实践是什么?第一次尝试每6小时绑定一次数据,并构建基于stdev的类别,但这似乎有点武断,与三个假设类别不太一致。

EN

回答 2

Data Science用户

发布于 2018-01-24 07:07:21

所以,如果我正确地理解了你,你想根据温度变化的频率和幅度来分类你的数据,对吗?

我认为您使用stdev的尝试并不遥远,但是您的间隔有点差,6个小时可能会太长。考虑到Shannon,如果您想要完全重构信号,您的采样率必须至少是数据集中最高频率的两倍。如果你的采样率是6小时,你可能会错过大的飞跃在图像的末尾。

我的建议是使用滑动窗口,并使用快速傅立叶变换获得频谱。使用这些数据点,您可以尝试使用支持向量机或kNN方法对它们进行聚类。我认为支持向量机是最好的选择,因为你的课应该是干净的。而且,由于您知道您有多少类,所以不需要对这个参数进行超调。

我当然不知道这是否是最佳实践,但我认为这是一种可行的方法。

票数 2
EN

Data Science用户

发布于 2018-01-25 03:22:40

根据数据的采样率,我将创建一个新变量,其中使用跟踪窗口计算stdev,并使用stdev创建k均值集群。

基于视觉评估,您可以使用三个集群,但也可以尝试使用2或4个,并选择最小的WSS结果(在群平方和内)。

一旦找到了这些,就可以为每个集群分配一个类。然而,这种策略的问题在于,它只适用于具有类似stdev的未来数据。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26978

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档