首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用时间序列数据进行二进制分类的最佳方法是什么?

使用时间序列数据进行二进制分类的最佳方法是什么?
EN

Data Science用户
提问于 2017-12-08 13:54:01
回答 2查看 2.9K关注 0票数 2

我有大量的csv文件,其中每一个是基于时间序列的csv文件采样在埃弗里5秒2-3分钟。我有20k这样的文件,每个文件中有200-300个变量。我是聚合数据的平均值在整个2-3分钟窗口是使用它的二进制分类。

目前,我正在使用.CSV文件中每个列的平均值来表示该文件,因此基本上我是使用每个列使用一个标量值来总结csv的。因此,每个文件都是一个用其各自的平均值表示的示例。有人能建议我一些更好的方法来总结时间序列数据吗。

耽误您时间,实在对不起。

EN

回答 2

Data Science用户

回答已采纳

发布于 2017-12-09 13:03:49

从您的评论中,我了解到您正在尝试使用聚合数据来解决二进制分类问题,如果您只使用平均值,结果会非常糟糕。

根据数据的具体情况和时间序列的形状,您可以尝试几种替代方法。请注意,要解决问题,您可能需要(很大程度上)不仅仅是每个时间序列中的一个数字。

  1. 除了平均值之外,您还可以使用分位数或其他一些汇总统计数据,如标准差、最小值或最大值。
  2. 您可以尝试对数据进行抽样,即只选择分钟、小时或天为一部分的值,而不是取整个时间序列。或者只选择正午值。取样的频率取决于你的数据。
  3. 或者仅仅通过计算每小时、每一天、每一个月的平均值来进行预汇总。
  4. 此外,您还可以计算时间序列的周期性,并将其用作新的功能。
  5. 或者计算一些趋势。
  6. 尝试将一些标准的时间序列模型与您的数据相匹配,例如ARIMA,并使用系数作为信息特征。
  7. 最后但并非最不重要的是,使用领域知识是什么可能是与您的分类问题相关的特征:最大跳跃(最大一阶差),制度的变化等。

编辑,我会选择至少10-20的功能,每个时间序列生成如上所述,并应用逻辑回归与拉索,甚至xgboost。

在每个时间序列选择10-20个特征之后,您也可以尝试PCA来降低维数。

票数 5
EN

Data Science用户

发布于 2017-12-10 20:36:06

如果您的领域表示频率元素可能对分类有一定的意义或相关性,则可以尝试对系列进行傅里叶变换。我曾经按照艾凡诺夫的建议,沿着通常的统计特征,取了变换的前10个系数。它帮助我分类我的数据。在进行转换之前,您还可以通过高通/低通或带滤波器传递该系列。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/25502

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档