文章/答案/技术大牛

发布

社区首页 >问答首页 >随机林火花加工数据

问随机林火花加工数据
EN

Stack Overflow用户

提问于 2016-01-24 18:21:11

回答 1查看 807关注 0票数 0

使用星火1.5.1，MLLib随机森林概率的答案，我能够使用ml.classification.RandomForestClassifier训练一个随机森林，并使用经过训练的随机森林处理一个不确定的数据。

我的问题是，我想保存这个经过训练的随机森林，以便在将来处理任何数据(具有与训练集相同的特性)。

此页面上的分类示例使用mllib.tree.model.RandomForestModel，它展示了如何保存经过训练的森林，但据我所知，只能在(并在将来处理) LabeledPoint RDD上进行培训。我在LabeledPoint RDD中遇到的问题是，这只能包含标签双和特征向量，因此我将失去所有用于其他目的所需的非标签/非功能列。

因此，我想我需要一种方法来保存ml.classification.RandomForestClassifier的结果，或者构造一个LabeledPoint RDD，它可以保留通过mllib.tree.model.RandomForestModel训练的林中所需的标签和特性以外的列。

谁知道为什么同时存在，而不仅仅是其中一个ML和MLlib库？

非常感谢您阅读了我的问题，并提前感谢您的任何解决方案/建议。

apache-spark

apache-spark-sql

apache-spark-mllib

random-forest

apache-spark-ml

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-24 20:35:25

我将重复使用火花编程指南中的话：

spark.ml包旨在提供一组建立在DataFrames之上的统一的高级API，帮助用户创建和调整实用的机器学习管道。

在Spark中，核心功能是RDDs。有一篇关于这个主题的优秀论文，如果你感兴趣的话，我可以在以后添加链接。

最初它是一个独立的图书馆，后来被“星火”项目淹没了。然而，Spark中的机器学习算法都是在RDDs上编写的。

然后将DataFrame抽象添加到项目中，因此需要一种更实用的方法来构建机器学习应用程序，其中包括变压器和评估器，最重要的是管道。

为此，数据工程师或科学家不需要研究底层技术。因此抽象。

您可以同时使用这两种方法，但您需要记住，您从ML中使用的所有算法都是用MLlib编写的，然后为了便于使用而进行了抽象。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34979593

复制

相似问题

问随机林火花加工数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机林火花加工数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机林火花加工数据
EN