首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >保存H2o数据帧

保存H2o数据帧
EN

Stack Overflow用户
提问于 2019-01-29 17:17:32
回答 2查看 3.2K关注 0票数 5

我正在使用10 am的训练数据帧。我使用H2o库来加快计算速度。每次加载数据集时,我都要将数据帧转换为H2o对象,这会花费很多时间。有没有办法存储转换后的H2o对象?(这样我就可以在每次构建模型时跳过as.H2o(训练集)步骤)

EN

回答 2

Stack Overflow用户

发布于 2019-01-29 20:29:52

在使用as.h2o(trainingset)进行第一次转换之后,您可以将文件导出/保存到磁盘,然后再次导入。

代码语言:javascript
复制
my_h2o_training_file <- as.h2o(trainingset)
path <- "whatever/my/path/is"
h2o.exportFile(my_h2o_training_file , path = path)

当您想要加载它时,使用h2o.importFileh2o.importFolder。有关正确用法,请参阅函数帮助。

或者在使用as.h2o进行转换之前将文件另存为csv / txt,然后使用上述函数之一将其直接加载到h2o中。

票数 5
EN

Stack Overflow用户

发布于 2019-01-31 19:27:16

as.h2o(d)的工作原理是这样的(即使客户端和服务器在同一台机器上):

在R中的

  1. 中,将d导出到临时位置中的csv文件中
  2. 调用h2o.uploadFile()以执行到服务器的HTTP POST,然后单线程import.
  3. Returns该import
  4. Deletes中的句柄它生成的临时csv文件。

相反,提前在某个地方(*)准备数据,然后使用h2o.importFile() (请参阅http://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.importFile.html)。这就省去了对本地文件的干扰,而且它还可以进行并行读取和导入。

*:为了获得最快的结果,“某处”应尽可能靠近服务器。要让它正常工作,“某个地方”必须在服务器可以看到的地方。如果客户端和服务器是同一台机器,那么这是自动的。在另一个极端,如果你的服务器是位于另一个大陆的亚马逊网络服务数据中心的一群机器,那么将数据放入S3中效果很好。您也可以将其放在HDFS或web服务器上。

参见http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/importing-data.html获取R和Python语言中的一些示例。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54417507

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档