我有多个时间系列数据集,包含9个IMU传感器功能.假设我使用滑动窗口方法将所有这些数据分割成序列长度为100的样本,即我的数据集的维数为(样本数,100,9)。现在我想可视化那些分裂的样本来找出里面的模式。我能不能把它当作表格数据,先将原始维数转换为(样本数,900),然后直接应用t-sne方法来找出模式?或有其他方法更好地找出时间序列数据的模式。
发布于 2022-01-12 14:33:09
这都取决于数据的可变性。
如果时间序列在原始值方面彼此之间的变量太大,您可能看不到任何有意义的集群。
这就是为什么你想要转换数据,使时代系列更具可比性。
如果要检测行为模式,第一步是拥有相对值而不是绝对值。
然后,总是建议对数据进行规范化。如果不进行归一化,the算法后面的高斯函数将不会以同样的方式分离小值和大值,并且会导致更多的变异(=没有清晰的聚类)。
此外,如果原始值的可变性太高,那么应用日志可能很有趣,但要注意精度损失,这通常并不重要,因为您只想在较低的维度中可视化数据。
最后,如果时间序列太长(可能是100),而the无法检测传感器之间可见的相似之处,则应该通过在2个或更多个连续值之间应用平均值来简化数据。
请记住,当您有许多变量时,those主要是有用的(例如:比较50个发动机,每个传感器都有100个传感器,并且希望将这9个传感器降到二维),以便直观地检测它们的异同。
我的最后一个建议是先从一个重要的传感器开始,然后再考虑更多的传感器。一旦你用一个传感器达到有趣的结果,你就可以用更多的传感器来增加复杂性。或者,您也可以应用UMAP:它有在集群之间建立关联的好处,不需要进行规范化,但是结果可能比较低维度中各个点之间的than更糟糕。传感器之间的相关性研究可能很有趣:一些没有或低相关的传感器,或者太吵的传感器,可能会被丢弃。
总之,数据预处理是至关重要的,取决于您使用的算法,但总是从较小的数据集开始,以便在考虑整个数据集之前评估结果的质量。
https://datascience.stackexchange.com/questions/106987
复制相似问题