文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在spark中缓存随机森林模型

问如何在spark中缓存随机森林模型
EN

Stack Overflow用户

提问于 2018-05-27 02:20:17

回答 1查看 546关注 0票数 1

我的平台是Spark2.1.0，使用python语言。

现在我有了大约100个随机森林多分类模型，我已经将它们保存在HDFS.There中--这些数据集也保存在HDFS中。我想用相应的model.If来预测数据集，模型和数据集都缓存在内存中，预测速度会快10倍以上。

但是我不知道如何缓存模型，因为模型不是RDD或Dataframe。

谢谢!

machine-learning

random-forest

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-27 08:24:02

TL；博士只是cache数据，如果它曾经被重复使用外部预测过程，如果没有，你甚至可以跳过它。

RandomForestModel是一个不受分布式数据结构支持的本地对象，没有需要重新计算的DAG，而且预测过程是一个简单的、只映射的工作。因此，不能缓存模型，即使可以，操作也将毫无意义。

另见(Why) do we need to call cache or persist on a RDD

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50548523

复制

相似问题

问如何在spark中缓存随机森林模型
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在spark中缓存随机森林模型EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在spark中缓存随机森林模型
EN