文章/答案/技术大牛

发布

社区首页 >问答首页 >DataProc的处理时间比预期的要长3个小时，不到15分钟

问DataProc的处理时间比预期的要长3个小时，不到15分钟
EN

Stack Overflow用户

提问于 2021-03-03 02:47:31

回答 1查看 70关注 0票数 2

我使用PySpark作业迁移了C应用程序的一部分，以便在DataProc上进行处理(读取和写入大型查询-数据量-大约10 GB)。在本地数据中心运行的C应用程序在8分钟内运行，数据处理时间约为4小时。有人能给我建议一下最优的数据处理配置吗？目前，我使用的是以下一个：

--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-worker 2 --worker-machine-type n2-highmem-32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10

我将非常感谢在优化数据处理程序配置方面的任何帮助。

谢谢，RP

performance

google-cloud-platform

google-cloud-dataproc

data-processing

dataproc

回答 1

Stack Overflow用户

发布于 2021-03-04 08:17:46

这里有一些关于Dataproc上的作业性能调优的好文章：Spark job tuning tips和10 questions to ask about your Hadoop and Spark cluster performance。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66445348

复制

相似问题

问DataProc的处理时间比预期的要长3个小时，不到15分钟
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DataProc的处理时间比预期的要长3个小时，不到15分钟EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DataProc的处理时间比预期的要长3个小时，不到15分钟
EN