首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机林火花加工数据

随机林火花加工数据
EN

Stack Overflow用户
提问于 2016-01-24 18:21:11
回答 1查看 807关注 0票数 0

使用星火1.5.1,MLLib随机森林概率的答案,我能够使用ml.classification.RandomForestClassifier训练一个随机森林,并使用经过训练的随机森林处理一个不确定的数据。

我的问题是,我想保存这个经过训练的随机森林,以便在将来处理任何数据(具有与训练集相同的特性)。

此页面上的分类示例使用mllib.tree.model.RandomForestModel,它展示了如何保存经过训练的森林,但据我所知,只能在(并在将来处理) LabeledPoint RDD上进行培训。我在LabeledPoint RDD中遇到的问题是,这只能包含标签双和特征向量,因此我将失去所有用于其他目的所需的非标签/非功能列。

因此,我想我需要一种方法来保存ml.classification.RandomForestClassifier的结果,或者构造一个LabeledPoint RDD,它可以保留通过mllib.tree.model.RandomForestModel训练的林中所需的标签和特性以外的列。

谁知道为什么同时存在,而不仅仅是其中一个ML和MLlib库?

非常感谢您阅读了我的问题,并提前感谢您的任何解决方案/建议。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-24 20:35:25

我将重复使用火花编程指南中的话:

spark.ml包旨在提供一组建立在DataFrames之上的统一的高级API,帮助用户创建和调整实用的机器学习管道。

在Spark中,核心功能是RDDs。有一篇关于这个主题的优秀论文,如果你感兴趣的话,我可以在以后添加链接。

最初它是一个独立的图书馆,后来被“星火”项目淹没了。然而,Spark中的机器学习算法都是在RDDs上编写的。

然后将DataFrame抽象添加到项目中,因此需要一种更实用的方法来构建机器学习应用程序,其中包括变压器和评估器,最重要的是管道。

为此,数据工程师或科学家不需要研究底层技术。因此抽象。

您可以同时使用这两种方法,但您需要记住,您从ML中使用的所有算法都是用MLlib编写的,然后为了便于使用而进行了抽象。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34979593

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档