首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板

使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板
EN

Stack Overflow用户
提问于 2018-10-03 02:27:13
回答 2查看 1.7K关注 0票数 1

有很多这样的问题,但似乎没有任何帮助。我正在尝试将相当大的csv.gz文件转换到parquet中,并不断收到各种错误,例如

代码语言:javascript
复制
'Command failed with exit code 1'

代码语言:javascript
复制
An error occurred while calling o392.pyWriteDynamicFrame. Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, ip-172-31-5-241.eu-central-1.compute.internal, executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container marked as failed

。在指标监控中,我看不到太多的CPU或内存负载。存在ETL数据移动,但这应该会在使用S3时触发任何错误。

另一个问题是,这样的作业在抛出之前运行4-5个小时。这是一种预期行为吗?CSV文件有30-40个cols。

我不知道该往哪个方向走。整体胶水能处理这么大的文件吗?

EN

回答 2

Stack Overflow用户

发布于 2018-10-03 23:25:08

我认为这个问题与DPU的数量没有直接关系。你有一个很大的文件,而且你使用的是GZIP格式,它是不可拆分的,所以你有这个问题。

我建议将您的文件从GZIP转换为bzip2或lz4。此外,为了在将来获得更好的性能,您应该考虑使用输出数据的分区。

http://comphadoop.weebly.com/

票数 2
EN

Stack Overflow用户

发布于 2018-10-03 11:16:46

您正在使用的DPU数量。此article提供了DPU容量规划的一个很好的概述。希望这能有所帮助。AWS没有明确的规则手册来说明您需要多少DPU来处理特定大小。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52614265

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档