文章/答案/技术大牛

发布

社区首页 >问答首页 >使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板

问使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板
EN

Stack Overflow用户

提问于 2018-10-03 02:27:13

回答 2查看 1.7K关注 0票数 1

有很多这样的问题，但似乎没有任何帮助。我正在尝试将相当大的csv.gz文件转换到parquet中，并不断收到各种错误，例如

'Command failed with exit code 1'

或

An error occurred while calling o392.pyWriteDynamicFrame. Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, ip-172-31-5-241.eu-central-1.compute.internal, executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container marked as failed

。在指标监控中，我看不到太多的CPU或内存负载。存在ETL数据移动，但这应该会在使用S3时触发任何错误。

另一个问题是，这样的作业在抛出之前运行4-5个小时。这是一种预期行为吗？CSV文件有30-40个cols。

我不知道该往哪个方向走。整体胶水能处理这么大的文件吗？

amazon-web-services

aws-glue

回答 2

Stack Overflow用户

发布于 2018-10-03 23:25:08

我认为这个问题与DPU的数量没有直接关系。你有一个很大的文件，而且你使用的是GZIP格式，它是不可拆分的，所以你有这个问题。

我建议将您的文件从GZIP转换为bzip2或lz4。此外，为了在将来获得更好的性能，您应该考虑使用输出数据的分区。

http://comphadoop.weebly.com/

票数 2

Stack Overflow用户

发布于 2018-10-03 11:16:46

您正在使用的DPU数量。此article提供了DPU容量规划的一个很好的概述。希望这能有所帮助。AWS没有明确的规则手册来说明您需要多少DPU来处理特定大小。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52614265

复制

相似问题

问使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用AWS Glue将非常大的csv.gz (每个30-40 gb )转换为镶木地板
EN