我有一个时间序列数据的分类问题。
每个示例具有10个变量,这些变量以不规则的间隔进行测量,最后将对象分类为2个可能的类别中的1个(二进制分类)。
在训练期间,我只需要学习示例的最后一节课。但当给出一个新的例子时,我想在每个时间戳(以在线方式)做出预测。因此,如果新示例有25个度量,我想对其类别进行25个预测;每个时间戳一个。
我目前实现这一点的方式是使用它的10个变量的测量值的最小值、平均值和最大值作为分类的特征。这是最优的吗?有什么更好的方法。
发布于 2015-10-16 20:13:04
如果你必须在每个时间戳上做出预测,那么这不会成为一个时间序列问题(除非你计划使用之前观察到的序列来进行下一次预测,在这种情况下,你将需要训练一个基于序列的模型)。假设你只能根据你观察到的最终数据训练一个模型,可能有很多方法,但我建议你使用随机森林,其中有大量的树和每棵树中的3到4个变量。这样一来,即使一些变量没有提供所需的输入,其他树仍然可以做出相当准确的预测。除此之外,还可以有许多集成方法。
你目前所做的可能是一个非常松散的近似和实用的方法,但没有太多的统计意义。
https://stackoverflow.com/questions/33168836
复制相似问题