我正在研究一个问题,在这个问题中,我有一些关于一些发电机组的数据集。过去,这些单位中的每一个都被激活以运行,而在激活的同时,一些单位遇到了一些问题。现在我有了所有这些数据,我想为这些发电机组提供某种排序。排名的标准一开始就很简单。它们是:
稍后,我将通过添加更多的标准来扩展这个排序算法。我将使用Apache库,我已经看到有很多算法已经到位。
http://spark.apache.org/docs/latest/mllib-guide.html
我只是不确定哪种算法适合我的目的。有什么建议吗?
发布于 2016-04-15 00:24:40
您可以使用聚类算法(如k-均值)将生成器划分为组。除非你尝试一下,否则你永远不知道你会得到什么样的团队。随着集群数量的增加,尝试并评估每组生成器的特性。在某个时候,您应该找到一个有意义的发电机划分。您的k-均值算法的输入将是您在文章中提到的标准:它被激活的次数、激活问题的数量等等。当您完成时,生成器所属的组是其排名。如果有1000个生成器,此方法将不会生成1-1000的排序。相反,它将提供给您,例如与k=3:一组243个杰出的发电机,320平均发电机,和446可怕的发电机。
发布于 2016-04-12 14:14:59
除了少数例外,您几乎可以在模型中使用任何机器学习算法。大多数机器学习包的优点是,每个模型的接口大部分是相同的(尽管调优参数会有所不同),并且只需几行代码就可以测试每个模型。你没有理由人为地限制自己去尝试某些模式。
此规则的一些例外是可能只适用于分类或只适用于回归的算法。这听起来像是你试图预测一个连续的目标变量,然后你将使用的排名。如果是这样的话,那么您将无法使用名为朴素贝叶斯的算法,因为它只能输出概率。在其他罕见的情况下,如深度学习模型,运行时间可能很长(小时或天),在这些情况下,你不会想使用这样的算法,除非你有充分的理由这样做(例如,图像中的人脸识别)。但是,您应该能够使用MLlib中几乎所有的算法:梯度增强、随机森林等等。
https://datascience.stackexchange.com/questions/11167
复制相似问题