首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用spark运行rapids时nvvp时间线中的间隙

使用spark运行rapids时nvvp时间线中的间隙
EN

Stack Overflow用户
提问于 2021-06-21 03:25:17
回答 1查看 36关注 0票数 0

我正在对使用tpch-dbgen生成的CSV运行一些sql查询。为了简单起见,我用一个线程/任务运行它,并查看时间线中的间隙,如所附图像所示。是磁盘操作吗?这种开销能以某种方式放松或优化吗?我如何才能确定那里到底发生了什么?

Profiler timeline

EN

回答 1

Stack Overflow用户

发布于 2021-06-22 01:36:41

这可能是在GPU处理和Spark压缩之前缓冲来自分布式文件系统的文件输入,并将任务输出作为shuffle的一部分写入磁盘的组合(不清楚此查询是否来自所示配置文件的部分)。

RAPIDS Accelerator和cudf jars中都有一些Java级别的NVTX范围,可以帮助提供更高的可见性。添加

--conf spark.executor.extraJavaOptions="-Dai.rapids.cudf.nvtx.enabled=true"

添加到Spark命令行以启用这些NVTX范围,这些范围应显示在收集的GPU配置文件中。

有关调整Apache Spark的RAPIDS Accelerator的提示,请参阅https://nvidia.github.io/spark-rapids/docs/tuning-guide.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68059348

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档