我有来自传感器的时间序列数据集,任务是预测故障事件发生前的时间。数据集只有一个特性,有近2000万行。这是一个回归问题。
我尝试了多项式特征,自相关,滚动统计和扩展统计。唯一一个改进我的模型的方法是扩大总和。从这些数据中提取哪些相关特征?
我的模型是线性回归模型,数据集进行了缩放,目前只有两个特性改进了我的模型。传感器数据和扩展和。除了深度学习之外,还有其他解决这个问题的建议吗?
更新:为了澄清,我添加了输入和输出的情节。
传感器读数图输入

失败时间图输出

发布于 2020-02-16 04:05:50
我认为在你开始深入学习之前,你应该问的第一个问题是,你能通过看一看你的数据来判断失败何时会发生吗?如果你做不到,那么没有任何模型可以帮助你推断出什么时候会发生故障。
您不应该忽略一些基本模型,例如指数或泊松分布模型,这些模型应该能够很好地模拟当前的问题。
最后,由于这是一个罕见事件的时间序列,一些获得更多洞察力的方法可能包括:故障间隔时间、识别触发故障的数据值阈值、将所有数据拼接成间隔和故障次数等。您还应该检查故障是否遵循模式。
发布于 2020-02-25 11:53:07
首先,你如何分类你的失败?它们是这些巨峰吗?如果是这样的话,你可能应该首先使用一个对数标度。
第二,你的数据看起来非常周期性,我想说你有系统故障。
您不认为使用不涉及复杂ML的更简单的方法更好吗?试着先计算事件的频率,看看它是否是常量。还有一件事是添加一些基于均值的特性,例如,特定时间间隔上的平均值(10读,100读等等)。
另外,对于一些注释,由于数据来自传感器,它:
UPD。这看起来是一个罕见的事件预测问题,请查看以下链接:
https://arxiv.org/pdf/1809.10717.pdf
https://machinelearningmastery.com/lstm-model-architecture-for-rare-event-time-series-forecasting/
https://datascience.stackexchange.com/questions/68057
复制相似问题