首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >仅使用单个gpu加载数据的Cudf

仅使用单个gpu加载数据的Cudf
EN

Stack Overflow用户
提问于 2020-09-19 01:14:57
回答 1查看 227关注 0票数 0

我有一个很大的文件要使用cudf.read_csv()加载。有问题的文件太大,无法放入单个gpu的内存中,但仍然足够小,可以放入cpu内存。我可以通过pd.read_csv()加载这个文件,但它永远都要花时间!在较小(但仍然相当大)的文件中,cudf.read_csv()大约比pandas快6-10倍。

在使用cudf.read_csv()时,我注意到4个可用的TeslaV100-DGXS中只有1个实际加载数据。其余的都闲置着。我想象一下,如果所有4个文件都被使用了,文件将可以放入内存中。如何使用全部4个gpu加载文件?

注意:我知道我可以使用像cudf.read_csv('file.csv',usecols=FIRST_n_COLS)这样的hack,然后按顺序加载多个列。虽然这可以放在内存中,但如果可能的话,我更喜欢更优雅的解决方案。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-09-19 03:52:41

如果您有多个GPU,并且希望一次使用所有GPU,请使用dask_cudfRAPIDS has a few guides for this,但@Nick Becker在这里做了一个很好的解释:https://stackoverflow.com/a/58123478/1309051。这样你就可以上路了

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63960134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档