文章/答案/技术大牛

发布

社区首页 >问答首页 >在DASK上运行的cuML函数？那么dask_cudf操作呢？

问在DASK上运行的cuML函数？那么dask_cudf操作呢？
EN

Stack Overflow用户

提问于 2020-02-06 14:34:43

回答 1查看 172关注 0票数 0

如何在大型数据集dask_cudf上运行dask_cuML (例如逻辑回归)？

我不能在我的cudf dataframe上运行cuML，因为数据集太大了，所以只要我尝试任何东西，就会“内存不足”。好的一面是我有4个GPU可以和dask_cudf一起使用。

例如，有人知道在dask_cudf数据帧上运行逻辑回归的步骤吗？

关于我的cudf和cuml逻辑函数：

type(gdf)
cudf.core.dataframe.DataFrame

logreg = cuml.LogisticRegression(penalty='none', tol=1e-6, max_iter=10000)
logreg.fit(gdf[['A', 'B', 'C', 'D', 'E']], gdf['Z'])

我的想法--步步为营：(不起作用！)

1-将gdf cudf转换为dask_cudf。

  ddf = dask_cudf.from_cudf(gdf, npartitions=2) -- what's the number of partitions?

2- meta_dtypes = dict(zip(ddf.columns, ddf.dtypes))

def logistic_regression(gdf):
              return logreg.fit(gdf[['A', 'B', 'C', 'D', 'E']], gdf['Z'])

4- ddf = ddf .map_partitions(logistic_regression, meta=meta_dtypes)

ddf.compute().persist()

如有任何建议或见解，欢迎光临！

rapids

python

dataframe

dask

回答 1

Stack Overflow用户

发布于 2020-02-07 02:58:26

感谢您试用cuml！cuml的官方发布还没有多个gpu的逻辑回归(即将推出！)。我正在使用dask-glm和cupy实现一个变通方法。一旦我的笔记本准备好了，我就会在这个帖子里发布它。以下是一般步骤：

如果您的数据集太大，我建议您使用dask_cudf读取csv文件，而不是将cudf dataframe转换为dask_cudf。

ddf = dask_cudf.read_csv("*.csv")

通过调用

将dask cudf数据帧转换为dask数组

X = ddf[['A', 'B', 'C', 'D', 'E']].values
y = ddf['Z'].values

其中dask数组的每个块是cupy数组。

将dask数组与我的版本dask-glm逻辑回归拟合。

from dask_glm.estimators import LogisticRegression
clf = LogisticRegression()
clf.fit(X,y)

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60089009

复制

相似问题

问在DASK上运行的cuML函数？那么dask_cudf操作呢？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在DASK上运行的cuML函数？那么dask_cudf操作呢？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在DASK上运行的cuML函数？那么dask_cudf操作呢？
EN