文章/答案/技术大牛

发布

社区首页 >问答首页 >创建分类变量，而不知道真正的类别(通过绑定时间序列数据)？

问创建分类变量，而不知道真正的类别(通过绑定时间序列数据)？
EN

Data Science用户

提问于 2018-01-23 22:11:06

回答 2查看 159关注 0票数 0

我有一个温度数据集(每15分钟一次)来构建一个有监督的分类/预测算法，但我只知道一个真正的类(当数据接近于35度时)。

然而，鉴于有关这一主题的学术文献和数据可视化，它似乎有三个“真实”的类别:监管，次理想的监管，和没有监管。这是一个垂直线的图表，描绘了三个潜在的类别。

建立这个分类的最佳实践是什么？第一次尝试每6小时绑定一次数据，并构建基于stdev的类别，但这似乎有点武断，与三个假设类别不太一致。

machine-learning

python

classification

time-series

supervised-learning

回答 2

Data Science用户

发布于 2018-01-24 07:07:21

所以，如果我正确地理解了你，你想根据温度变化的频率和幅度来分类你的数据，对吗？

我认为您使用stdev的尝试并不遥远，但是您的间隔有点差，6个小时可能会太长。考虑到Shannon，如果您想要完全重构信号，您的采样率必须至少是数据集中最高频率的两倍。如果你的采样率是6小时，你可能会错过大的飞跃在图像的末尾。

我的建议是使用滑动窗口，并使用快速傅立叶变换获得频谱。使用这些数据点，您可以尝试使用支持向量机或kNN方法对它们进行聚类。我认为支持向量机是最好的选择，因为你的课应该是干净的。而且，由于您知道您有多少类，所以不需要对这个参数进行超调。

我当然不知道这是否是最佳实践，但我认为这是一种可行的方法。

票数 2

Data Science用户

发布于 2018-01-25 03:22:40

根据数据的采样率，我将创建一个新变量，其中使用跟踪窗口计算stdev，并使用stdev创建k均值集群。

基于视觉评估，您可以使用三个集群，但也可以尝试使用2或4个，并选择最小的WSS结果(在群平方和内)。

一旦找到了这些，就可以为每个集群分配一个类。然而，这种策略的问题在于，它只适用于具有类似stdev的未来数据。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/26978

复制

相似问题

问创建分类变量，而不知道真正的类别(通过绑定时间序列数据)？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建分类变量，而不知道真正的类别(通过绑定时间序列数据)？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建分类变量，而不知道真正的类别(通过绑定时间序列数据)？
EN