文章/答案/技术大牛

发布

社区首页 >问答首页 >使用时间序列数据进行二进制分类的最佳方法是什么？

问使用时间序列数据进行二进制分类的最佳方法是什么？
EN

Data Science用户

提问于 2017-12-08 13:54:01

回答 2查看 2.9K关注 0票数 2

我有大量的csv文件，其中每一个是基于时间序列的csv文件采样在埃弗里5秒2-3分钟。我有20k这样的文件，每个文件中有200-300个变量。我是聚合数据的平均值在整个2-3分钟窗口是使用它的二进制分类。

目前，我正在使用.CSV文件中每个列的平均值来表示该文件，因此基本上我是使用每个列使用一个标量值来总结csv的。因此，每个文件都是一个用其各自的平均值表示的示例。有人能建议我一些更好的方法来总结时间序列数据吗。

耽误您时间，实在对不起。

feature-extraction

time-series

回答 2

Data Science用户

回答已采纳

发布于 2017-12-09 13:03:49

从您的评论中，我了解到您正在尝试使用聚合数据来解决二进制分类问题，如果您只使用平均值，结果会非常糟糕。

根据数据的具体情况和时间序列的形状，您可以尝试几种替代方法。请注意，要解决问题，您可能需要(很大程度上)不仅仅是每个时间序列中的一个数字。

除了平均值之外，您还可以使用分位数或其他一些汇总统计数据，如标准差、最小值或最大值。
您可以尝试对数据进行抽样，即只选择分钟、小时或天为一部分的值，而不是取整个时间序列。或者只选择正午值。取样的频率取决于你的数据。
或者仅仅通过计算每小时、每一天、每一个月的平均值来进行预汇总。
此外，您还可以计算时间序列的周期性，并将其用作新的功能。
或者计算一些趋势。
尝试将一些标准的时间序列模型与您的数据相匹配，例如ARIMA，并使用系数作为信息特征。
最后但并非最不重要的是，使用领域知识是什么可能是与您的分类问题相关的特征:最大跳跃(最大一阶差)，制度的变化等。

编辑，我会选择至少10-20的功能，每个时间序列生成如上所述，并应用逻辑回归与拉索，甚至xgboost。

在每个时间序列选择10-20个特征之后，您也可以尝试PCA来降低维数。

票数 5

Data Science用户

发布于 2017-12-10 20:36:06

如果您的领域表示频率元素可能对分类有一定的意义或相关性，则可以尝试对系列进行傅里叶变换。我曾经按照艾凡诺夫的建议，沿着通常的统计特征，取了变换的前10个系数。它帮助我分类我的数据。在进行转换之前，您还可以通过高通/低通或带滤波器传递该系列。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/25502

复制

相似问题

问使用时间序列数据进行二进制分类的最佳方法是什么？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用时间序列数据进行二进制分类的最佳方法是什么？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用时间序列数据进行二进制分类的最佳方法是什么？
EN