我使用PySpark作业迁移了C应用程序的一部分,以便在DataProc上进行处理(读取和写入大型查询-数据量-大约10 GB)。在本地数据中心运行的C应用程序在8分钟内运行,数据处理时间约为4小时。有人能给我建议一下最优的数据处理配置吗?目前,我使用的是以下一个:
--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-worker 2 --worker-machine-type n2-highmem-32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10
我将非常感谢在优化数据处理程序配置方面的任何帮助。
谢谢,RP
发布于 2021-03-04 08:17:46
这里有一些关于Dataproc上的作业性能调优的好文章:Spark job tuning tips和10 questions to ask about your Hadoop and Spark cluster performance。
https://stackoverflow.com/questions/66445348
复制相似问题