我正在使用tsfresh中的extract features方法从时间序列集合中提取特征。基本上,我拥有的是一个数据帧字典,如下所示:

,
其中,列id是一个值,但对于字典中的每个数据帧都是不同的。我执行以下操作:
exracted_features = extract_features(subsets, column_id='id', column_value = '#text', feature_extraction_settings=MinimalFeatureExtractionSettings())在这里,subsets是包含数据帧的字典。我基本上把一个大时间序列分成不同的块,并把它们放在字典里。现在,我希望提取每个块的特征来训练ML算法,并将序列的一部分分类为1或0。
但是,我注意到extracted_features包含一个604行x4832列的稀疏矩阵。它所做的是为每个时间序列的8个基本功能创建列。行(中位数、最小值、sum_values、最大值、方差、standard_deviation、平均值、长度)。因此,如果我使用dropna(),它将永远花费select_features,并且它会失败,因为我得到了一个空的DataFrame。我不明白为什么它为每一行创建一组列,以及如何防止这种情况发生?(我想在更多的功能上使用它,但我在使用不同的设置时遇到了相同的问题)
发布于 2017-05-22 16:24:47
我是tsfresh的作者。您使用的是最新版本吗?你有多少块?可能是你的字典结构不正确。
https://stackoverflow.com/questions/43999738
复制相似问题