H2O.ai数据解析究竟在做什么?
Import h2o
h2o.init()
df = h2o.import_file(path=myfilepath)当我运行上面的代码时,我得到下面的输出,这需要一段时间.
Parse progress: [###################################] 100%当我在2GB的数据上运行这个程序时,我的内存会增加大约2GB。我认为H2O.ai应该使用惰性评估吗?似乎有很多信息存储在内存中(甚至整个数据集),显然这不是一个懒惰的评估,因为运行需要一段时间。
H2O.ai文档也不是很有用。
file
http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/importing-data.html
有人确切地知道这里发生了什么吗?
发布于 2019-03-19 23:28:54
这不是懒惰的评价。
它正在读取数据,并将数据存储在列压缩的内存中分布式键值存储中。
下面是一个很好的描述整个过程的图片:
https://stackoverflow.com/questions/55251381
复制相似问题