首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >DataProc的处理时间比预期的要长3个小时,不到15分钟

DataProc的处理时间比预期的要长3个小时,不到15分钟
EN

Stack Overflow用户
提问于 2021-03-03 02:47:31
回答 1查看 70关注 0票数 2

我使用PySpark作业迁移了C应用程序的一部分,以便在DataProc上进行处理(读取和写入大型查询-数据量-大约10 GB)。在本地数据中心运行的C应用程序在8分钟内运行,数据处理时间约为4小时。有人能给我建议一下最优的数据处理配置吗?目前,我使用的是以下一个:

--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-worker 2 --worker-machine-type n2-highmem-32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10

我将非常感谢在优化数据处理程序配置方面的任何帮助。

谢谢,RP

EN

回答 1

Stack Overflow用户

发布于 2021-03-04 08:17:46

这里有一些关于Dataproc上的作业性能调优的好文章:Spark job tuning tips10 questions to ask about your Hadoop and Spark cluster performance

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66445348

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档