我有大量的csv文件,其中每一个是基于时间序列的csv文件采样在埃弗里5秒2-3分钟。我有20k这样的文件,每个文件中有200-300个变量。我是聚合数据的平均值在整个2-3分钟窗口是使用它的二进制分类。
目前,我正在使用.CSV文件中每个列的平均值来表示该文件,因此基本上我是使用每个列使用一个标量值来总结csv的。因此,每个文件都是一个用其各自的平均值表示的示例。有人能建议我一些更好的方法来总结时间序列数据吗。
耽误您时间,实在对不起。
发布于 2017-12-09 13:03:49
从您的评论中,我了解到您正在尝试使用聚合数据来解决二进制分类问题,如果您只使用平均值,结果会非常糟糕。
根据数据的具体情况和时间序列的形状,您可以尝试几种替代方法。请注意,要解决问题,您可能需要(很大程度上)不仅仅是每个时间序列中的一个数字。
编辑,我会选择至少10-20的功能,每个时间序列生成如上所述,并应用逻辑回归与拉索,甚至xgboost。
在每个时间序列选择10-20个特征之后,您也可以尝试PCA来降低维数。
发布于 2017-12-10 20:36:06
如果您的领域表示频率元素可能对分类有一定的意义或相关性,则可以尝试对系列进行傅里叶变换。我曾经按照艾凡诺夫的建议,沿着通常的统计特征,取了变换的前10个系数。它帮助我分类我的数据。在进行转换之前,您还可以通过高通/低通或带滤波器传递该系列。
https://datascience.stackexchange.com/questions/25502
复制相似问题