文章/答案/技术大牛

发布

社区首页 >问答首页 >特定问题的算法建议

问特定问题的算法建议
EN

Data Science用户

提问于 2016-04-12 12:56:51

回答 2查看 361关注 0票数 2

我正在研究一个问题，在这个问题中，我有一些关于一些发电机组的数据集。过去，这些单位中的每一个都被激活以运行，而在激活的同时，一些单位遇到了一些问题。现在我有了所有这些数据，我想为这些发电机组提供某种排序。排名的标准一开始就很简单。它们是：

启动某一特定发电机组的最大次数
发电机在启动过程中遇到了多少次问题？

稍后，我将通过添加更多的标准来扩展这个排序算法。我将使用Apache库，我已经看到有很多算法已经到位。

http://spark.apache.org/docs/latest/mllib-guide.html

我只是不确定哪种算法适合我的目的。有什么建议吗？

apache-spark

ranking

machine-learning

回答 2

Data Science用户

回答已采纳

发布于 2016-04-15 00:24:40

您可以使用聚类算法(如k-均值)将生成器划分为组。除非你尝试一下，否则你永远不知道你会得到什么样的团队。随着集群数量的增加，尝试并评估每组生成器的特性。在某个时候，您应该找到一个有意义的发电机划分。您的k-均值算法的输入将是您在文章中提到的标准:它被激活的次数、激活问题的数量等等。当您完成时，生成器所属的组是其排名。如果有1000个生成器，此方法将不会生成1-1000的排序。相反，它将提供给您，例如与k=3:一组243个杰出的发电机，320平均发电机，和446可怕的发电机。

票数 2

Data Science用户

发布于 2016-04-12 14:14:59

除了少数例外，您几乎可以在模型中使用任何机器学习算法。大多数机器学习包的优点是，每个模型的接口大部分是相同的(尽管调优参数会有所不同)，并且只需几行代码就可以测试每个模型。你没有理由人为地限制自己去尝试某些模式。

此规则的一些例外是可能只适用于分类或只适用于回归的算法。这听起来像是你试图预测一个连续的目标变量，然后你将使用的排名。如果是这样的话，那么您将无法使用名为朴素贝叶斯的算法，因为它只能输出概率。在其他罕见的情况下，如深度学习模型，运行时间可能很长(小时或天)，在这些情况下，你不会想使用这样的算法，除非你有充分的理由这样做(例如，图像中的人脸识别)。但是，您应该能够使用MLlib中几乎所有的算法:梯度增强、随机森林等等。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/11167

复制

相似问题

问特定问题的算法建议
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特定问题的算法建议EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特定问题的算法建议
EN