首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在spark中缓存随机森林模型

如何在spark中缓存随机森林模型
EN

Stack Overflow用户
提问于 2018-05-27 02:20:17
回答 1查看 546关注 0票数 1

我的平台是Spark2.1.0,使用python语言。

现在我有了大约100个随机森林多分类模型,我已经将它们保存在HDFS.There中--这些数据集也保存在HDFS中。我想用相应的model.If来预测数据集,模型和数据集都缓存在内存中,预测速度会快10倍以上。

但是我不知道如何缓存模型,因为模型不是RDD或Dataframe。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-27 08:24:02

TL;博士只是cache数据,如果它曾经被重复使用外部预测过程,如果没有,你甚至可以跳过它。

RandomForestModel是一个不受分布式数据结构支持的本地对象,没有需要重新计算的DAG,而且预测过程是一个简单的、只映射的工作。因此,不能缓存模型,即使可以,操作也将毫无意义。

另见(Why) do we need to call cache or persist on a RDD

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50548523

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档