首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >应用t-SNE可视化时间序列数据集

应用t-SNE可视化时间序列数据集
EN

Data Science用户
提问于 2022-01-12 13:45:44
回答 1查看 1.6K关注 0票数 2

我有多个时间系列数据集,包含9个IMU传感器功能.假设我使用滑动窗口方法将所有这些数据分割成序列长度为100的样本,即我的数据集的维数为(样本数,100,9)。现在我想可视化那些分裂的样本来找出里面的模式。我能不能把它当作表格数据,先将原始维数转换为(样本数,900),然后直接应用t-sne方法来找出模式?或有其他方法更好地找出时间序列数据的模式。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-01-12 14:33:09

这都取决于数据的可变性。

如果时间序列在原始值方面彼此之间的变量太大,您可能看不到任何有意义的集群。

这就是为什么你想要转换数据,使时代系列更具可比性。

如果要检测行为模式,第一步是拥有相对值而不是绝对值。

然后,总是建议对数据进行规范化。如果不进行归一化,the算法后面的高斯函数将不会以同样的方式分离小值和大值,并且会导致更多的变异(=没有清晰的聚类)。

此外,如果原始值的可变性太高,那么应用日志可能很有趣,但要注意精度损失,这通常并不重要,因为您只想在较低的维度中可视化数据。

最后,如果时间序列太长(可能是100),而the无法检测传感器之间可见的相似之处,则应该通过在2个或更多个连续值之间应用平均值来简化数据。

请记住,当您有许多变量时,those主要是有用的(例如:比较50个发动机,每个传感器都有100个传感器,并且希望将这9个传感器降到二维),以便直观地检测它们的异同。

我的最后一个建议是先从一个重要的传感器开始,然后再考虑更多的传感器。一旦你用一个传感器达到有趣的结果,你就可以用更多的传感器来增加复杂性。或者,您也可以应用UMAP:它有在集群之间建立关联的好处,不需要进行规范化,但是结果可能比较低维度中各个点之间的than更糟糕。传感器之间的相关性研究可能很有趣:一些没有或低相关的传感器,或者太吵的传感器,可能会被丢弃。

总之,数据预处理是至关重要的,取决于您使用的算法,但总是从较小的数据集开始,以便在考虑整个数据集之前评估结果的质量。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/106987

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档