我想从机器学习开始,用一个小的预测问题,但我不确定我选择了正确的方法。我想要做一个程序,获取汽车的机械故障数据(制造时间,故障时间,原因,和汽车的不同特点)。然后,我会给出新汽车的数据,这些数据将被发布到市场上,我会试图预测它们何时会失效。
我读到最好的方法是用R进行生存分析,但是由于我对这个算法不太熟悉,我想知道是否还有其他的方法。
发布于 2017-05-22 19:57:55
我也只是一个ML的初学者(然而,他不熟悉生存分析w/ R),但我已经处理了一些ML项目。根据我的知识,你可以使用监督学习。
存储数据,最好以CSV格式存储(关于购买汽车与汽车机械故障之间的持续时间的一列),以及关于汽车数据/特性的其余部分。
接下来,您可以在数据中运行一个神经网络,并使用NN库的预测()方法来根据数据预测故障前的持续时间。
从理论上讲(假设数据之间存在逻辑关联),您可以看到哪些特性最容易导致汽车故障。
至于实现您的程序,我在Keras库中使用Python,这对任何程序员来说都很简单,但是还有许多其他很好的ML库,特别是TensorFlow。
请注意,我也只是一个初学者,我的方法可能是错误的,但我祝您在未来的ML项目好运!
发布于 2017-05-30 06:10:06
我认为您应该首先明确说明协变量是什么,目标变量是什么,目标是什么。
因此,如果您将car的属性作为协变量,目标变量是失败时间(car在1y,2y.中失败),那么最好的方法就是生存分析,因为您试图将时间建模到失败。
另一方面,如果您的目标变量只是一个失败-是或否,那么这是一个分类问题。因此,决策树或Logistic回归等简单模型非常适合。
不要仅仅因为它的花哨而使用算法,也不要仅仅因为它们不是“机器学习”而不喜欢其他的方法。
你说过你想从机器学习开始,那就去吧。不要盲目地适应任何黑匣子模型,从简单的模型开始,看看里面它们是如何工作的。
话虽如此,还是选些更简单的吧。因为生存分析需要知识或回归以及更多的统计数据。
祝你好运。
https://datascience.stackexchange.com/questions/19108
复制相似问题