文章/答案/技术大牛

发布

社区首页 >问答首页 >仅使用单个gpu加载数据的Cudf

问仅使用单个gpu加载数据的Cudf
EN

Stack Overflow用户

提问于 2020-09-19 01:14:57

回答 1查看 227关注 0票数 0

我有一个很大的文件要使用cudf.read_csv()加载。有问题的文件太大，无法放入单个gpu的内存中，但仍然足够小，可以放入cpu内存。我可以通过pd.read_csv()加载这个文件，但它永远都要花时间！在较小(但仍然相当大)的文件中，cudf.read_csv()大约比pandas快6-10倍。

在使用cudf.read_csv()时，我注意到4个可用的TeslaV100-DGXS中只有1个实际加载数据。其余的都闲置着。我想象一下，如果所有4个文件都被使用了，文件将可以放入内存中。如何使用全部4个gpu加载文件？

注意:我知道我可以使用像cudf.read_csv('file.csv'，usecols=FIRST_n_COLS)这样的hack，然后按顺序加载多个列。虽然这可以放在内存中，但如果可能的话，我更喜欢更优雅的解决方案。

pandas

nvidia

cudf

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-09-19 03:52:41

如果您有多个GPU，并且希望一次使用所有GPU，请使用dask_cudf。RAPIDS has a few guides for this，但@Nick Becker在这里做了一个很好的解释：https://stackoverflow.com/a/58123478/1309051。这样你就可以上路了

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63960134

复制

相似问题

问仅使用单个gpu加载数据的Cudf
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问仅使用单个gpu加载数据的CudfEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问仅使用单个gpu加载数据的Cudf
EN