有很多这样的问题,但似乎没有任何帮助。我正在尝试将相当大的csv.gz文件转换到parquet中,并不断收到各种错误,例如
'Command failed with exit code 1'或
An error occurred while calling o392.pyWriteDynamicFrame. Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, ip-172-31-5-241.eu-central-1.compute.internal, executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container marked as failed。在指标监控中,我看不到太多的CPU或内存负载。存在ETL数据移动,但这应该会在使用S3时触发任何错误。
另一个问题是,这样的作业在抛出之前运行4-5个小时。这是一种预期行为吗?CSV文件有30-40个cols。
我不知道该往哪个方向走。整体胶水能处理这么大的文件吗?
发布于 2018-10-03 23:25:08
我认为这个问题与DPU的数量没有直接关系。你有一个很大的文件,而且你使用的是GZIP格式,它是不可拆分的,所以你有这个问题。
我建议将您的文件从GZIP转换为bzip2或lz4。此外,为了在将来获得更好的性能,您应该考虑使用输出数据的分区。
http://comphadoop.weebly.com/
发布于 2018-10-03 11:16:46
您正在使用的DPU数量。此article提供了DPU容量规划的一个很好的概述。希望这能有所帮助。AWS没有明确的规则手册来说明您需要多少DPU来处理特定大小。
https://stackoverflow.com/questions/52614265
复制相似问题