我有很多时间序列数据集,为了降低维数,我想把它们转换成dft信号。在转换到dft之后,我希望使用k均值算法对生成的dft数据集进行聚类。
既然dft信号包含一个虚数,那么如何将它们聚在一起呢?
发布于 2016-12-24 22:12:08
你可以简单地把想象的部分当作向量中的另一个分量来处理。在其他应用程序中,您会想忽略它!
但你将面临其他更严峻的挑战。
数据挖掘,特别是聚类,很少像appliyng函数a (dft)和函数b (k-means)那样简单,然后就会得到结果,万岁。对不起-这不是探索性数据挖掘的工作方式。
首先,对于许多时间序列来说,DFT将毫无帮助。在其他情况下,你将首先做适当的重采样,或分割,或消除无趣的影响,如季节性。即使DFT有效,它也可能强调诸如采样频率或某些干扰之类的伪影。
然后你会遇到一个主要的问题:K-均值是基于假设所有属性都有相同的重要性。而DFT是基于完全相反的想法:第一组分捕获了大部分信号,而后一组仅与之有很小的偏差(这正是将其用作降维的动机)。因此,基于这种直觉,你也许永远不应该在DFT系数上应用k均值。同时,数据挖掘一再表明,尽管应用程序是“统计上的胡说八道”,但仍然可以提供有用的结果.所以你可以试一试,但是要小心地验证你的结果,避免过于热情或乐观。
发布于 2017-01-03 10:46:34
在FFT的帮助下,将数据集转换成dft信号。它有助于计算每个小数据集的DFT。
https://stackoverflow.com/questions/41315800
复制相似问题