我正在使用10 am的训练数据帧。我使用H2o库来加快计算速度。每次加载数据集时,我都要将数据帧转换为H2o对象,这会花费很多时间。有没有办法存储转换后的H2o对象?(这样我就可以在每次构建模型时跳过as.H2o(训练集)步骤)
发布于 2019-01-29 20:29:52
在使用as.h2o(trainingset)进行第一次转换之后,您可以将文件导出/保存到磁盘,然后再次导入。
my_h2o_training_file <- as.h2o(trainingset)
path <- "whatever/my/path/is"
h2o.exportFile(my_h2o_training_file , path = path)当您想要加载它时,使用h2o.importFile或h2o.importFolder。有关正确用法,请参阅函数帮助。
或者在使用as.h2o进行转换之前将文件另存为csv / txt,然后使用上述函数之一将其直接加载到h2o中。
发布于 2019-01-31 19:27:16
as.h2o(d)的工作原理是这样的(即使客户端和服务器在同一台机器上):
在R中的
d导出到临时位置中的csv文件中h2o.uploadFile()以执行到服务器的HTTP POST,然后单线程import.相反,提前在某个地方(*)准备数据,然后使用h2o.importFile() (请参阅http://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.importFile.html)。这就省去了对本地文件的干扰,而且它还可以进行并行读取和导入。
*:为了获得最快的结果,“某处”应尽可能靠近服务器。要让它正常工作,“某个地方”必须在服务器可以看到的地方。如果客户端和服务器是同一台机器,那么这是自动的。在另一个极端,如果你的服务器是位于另一个大陆的亚马逊网络服务数据中心的一群机器,那么将数据放入S3中效果很好。您也可以将其放在HDFS或web服务器上。
参见http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/importing-data.html获取R和Python语言中的一些示例。
https://stackoverflow.com/questions/54417507
复制相似问题