首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特定问题的算法建议

特定问题的算法建议
EN

Data Science用户
提问于 2016-04-12 12:56:51
回答 2查看 361关注 0票数 2

我正在研究一个问题,在这个问题中,我有一些关于一些发电机组的数据集。过去,这些单位中的每一个都被激活以运行,而在激活的同时,一些单位遇到了一些问题。现在我有了所有这些数据,我想为这些发电机组提供某种排序。排名的标准一开始就很简单。它们是:

  1. 启动某一特定发电机组的最大次数
  2. 发电机在启动过程中遇到了多少次问题?

稍后,我将通过添加更多的标准来扩展这个排序算法。我将使用Apache库,我已经看到有很多算法已经到位。

http://spark.apache.org/docs/latest/mllib-guide.html

我只是不确定哪种算法适合我的目的。有什么建议吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2016-04-15 00:24:40

您可以使用聚类算法(如k-均值)将生成器划分为组。除非你尝试一下,否则你永远不知道你会得到什么样的团队。随着集群数量的增加,尝试并评估每组生成器的特性。在某个时候,您应该找到一个有意义的发电机划分。您的k-均值算法的输入将是您在文章中提到的标准:它被激活的次数、激活问题的数量等等。当您完成时,生成器所属的组是其排名。如果有1000个生成器,此方法将不会生成1-1000的排序。相反,它将提供给您,例如与k=3:一组243个杰出的发电机,320平均发电机,和446可怕的发电机。

票数 2
EN

Data Science用户

发布于 2016-04-12 14:14:59

除了少数例外,您几乎可以在模型中使用任何机器学习算法。大多数机器学习包的优点是,每个模型的接口大部分是相同的(尽管调优参数会有所不同),并且只需几行代码就可以测试每个模型。你没有理由人为地限制自己去尝试某些模式。

此规则的一些例外是可能只适用于分类或只适用于回归的算法。这听起来像是你试图预测一个连续的目标变量,然后你将使用的排名。如果是这样的话,那么您将无法使用名为朴素贝叶斯的算法,因为它只能输出概率。在其他罕见的情况下,如深度学习模型,运行时间可能很长(小时或天),在这些情况下,你不会想使用这样的算法,除非你有充分的理由这样做(例如,图像中的人脸识别)。但是,您应该能够使用MLlib中几乎所有的算法:梯度增强、随机森林等等。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/11167

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档