文章/答案/技术大牛

发布

问在databricks上安装cudf
EN

Stack Overflow用户

提问于 2020-10-23 23:07:42

回答 3查看 357关注 0票数 2

我正在尝试在databricks上使用cudf。

我开始关注https://medium.com/rapids-ai/rapids-can-now-be-accessed-on-databricks-unified-analytics-platform-666e42284bd1。但是init脚本链接是断开的。

然后，我使用这个链接(https://github.com/rapidsai/spark-examples/blob/master/getting-started-guides/csp/databricks/databricks.md#start-a-databricks-cluster)在集群上安装cudf jar。我仍然不能import cudf。

我还尝试了：%sh conda install -c rapidsai -c nvidia -c numba -c conda-forge cudf=0.13 python=3.7 cudatoolkit=10.1，它也失败了，出现了一个很长的错误，以：

     active environment : /databricks/python
    active env location : /databricks/python
            shell level : 2
       user config file : /root/.condarc
 populated config files : /databricks/conda/.condarc
          conda version : 4.8.2
    conda-build version : not installed
         python version : 3.7.6.final.0
       virtual packages : __cuda=10.2
                          __glibc=2.27
       base environment : /databricks/conda  (writable)
           channel URLs : https://conda.anaconda.org/nvidia/linux-64
                          https://conda.anaconda.org/nvidia/noarch
                          https://conda.anaconda.org/rapidsai/linux-64
                          https://conda.anaconda.org/rapidsai/noarch
                          https://conda.anaconda.org/numba/linux-64
                          https://conda.anaconda.org/numba/noarch
                          https://conda.anaconda.org/conda-forge/linux-64
                          https://conda.anaconda.org/conda-forge/noarch
                          https://conda.anaconda.org/pytorch/linux-64
                          https://conda.anaconda.org/pytorch/noarch
                          https://repo.anaconda.com/pkgs/main/linux-64
                          https://repo.anaconda.com/pkgs/main/noarch
                          https://repo.anaconda.com/pkgs/r/linux-64
                          https://repo.anaconda.com/pkgs/r/noarch
          package cache : /databricks/python/pkgs
                          /local_disk0/conda/pkgs
       envs directories : /databricks/conda/envs
                          /root/.conda/envs
               platform : linux-64
             user-agent : conda/4.8.2 requests/2.22.0 CPython/3.7.6 Linux/4.4.0-1114-aws ubuntu/18.04.5 glibc/2.27
                UID:GID : 0:0
             netrc file : None
           offline mode : False


An unexpected error has occurred. Conda has prepared the above report.

Upload successful.

你知道如何在数据库集群上使用cudf吗？

cudf

databricks

回答 3

Stack Overflow用户

发布于 2020-10-30 02:27:55

我记得不久前我帮助写了那个博客:)。现在已经过时了。

Karthik和他的团队从spark-rapids开始做了一些很棒的更新。下面是spark中的RAPIDs with databricks的最新实现：https://nvidia.github.io/spark-rapids/docs/get-started/getting-started-databricks.html。这应该可以让您使用最新版本的cudf运行。

我会要求有人在那个特定的博客上添加类似的免责声明，这样其他人也不会感到困惑。感谢您通过这个问题提醒我们！

票数 0

Stack Overflow用户

发布于 2020-11-11 22:26:37

也许你需要cudatoolkit=10.2？你的报告里有virtual packages : __cuda=10.2。

我正在调查databricks GPU集群上的安装问题(不同的问题)，并注意到CUDA的版本是10.2，而不是我预期的10.1。

票数 0

Stack Overflow用户

发布于 2021-06-18 00:55:36

我认为OP想要在cudf中使用python。如果是这样的话，文档中不会对此进行介绍。

但我尝试将以下内容添加到generate-init-script.ipynb中以使其正常工作：

#Use mamba to install packages to speed up conda resolve time
base=$(conda info --base)
conda create -y -n mamba -c conda-forge mamba
pip uninstall -y pyarrow
${base}/envs/mamba/bin/mamba remove -y c-ares zstd libprotobuf pandas
${base}/envs/mamba/bin/mamba install -y "pyarrow=1.0.1" -c "conda-forge"
${base}/envs/mamba/bin/mamba install -y -c "rapidsai" -c "nvidia" -c "conda-forge" -c "defaults" "cudf=0.18" "cudatoolkit=10.1"
conda env remove -n mamba

注意:根据您的环境更改cudf版本和cudatoolkit。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64502614

复制

相似问题

问在databricks上安装cudf
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在databricks上安装cudfEN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在databricks上安装cudf
EN