我正试图根据报警数据来预测机器故障。
情况:
每年大约有4000台机器故障。这些标记很差(它是手动输入的,可以有多个名称用于相同的故障)。此数据集以下列方式由时间戳、故障名称和故障描述组成。
timestamp, name, description
01/01/2020 - 08:10, Motor Failure, Motor failed due to overheating 此外,每年大约有100万警报器显示可能出现的问题(系统中有8000个可能的警报,但只有1200个激活的警报)。警报在故障点开火,但也有很大比例的情况下,有多个相关的警报激活数周前,是无法采取行动,因为剪切数。此数据集由时间戳、警报id和警报描述组成,如下所示。
timestamp, alarm id, description
01/01/2020 - 08:10, MFHeatHiHi, Motor temperature critical请原谅我的无知,因为我对数据科学不熟悉。我试图找出最好的方法,首先清理/修改数据,然后向哪个方向创建预测。请让我知道,如果我是走错了方向,或有错误的想法,从哪里开始。
例如:
Failure timestamp, MFHeatHiHi - Motor temperature critical, FanHeatHiHi - Fan temperature critical,
01/01/2020 - 08:10, 4, 3,然后我想用随机森林和R。
这是正确的方法吗,如果我使失败只是一个变量,是删除警报的时间分量,并转换为警报的数目正确的方式,这意味着我需要8000列的每一个可能的警报。
我很确定我有错误的方法,所以我真的很感激一些指导,所以我正朝着正确的方向前进。
谢谢你的帮忙,
发布于 2020-07-13 05:07:11
我想你所描述的将被称为异常检测。我建议尝试另一种方法。有几个标准的解决方案来处理这个主题,下面是几个。
要解决的主要问题是:
在线参考资料(可能需要帐户查阅):
https://datascience.stackexchange.com/questions/77583
复制相似问题