我想要处理10PB的数据。输入数据是某种专有格式(存储在CSV中),第一个预处理步骤是将这些专有数据转换为CSV并将其移回S3。由于一些限制,我不能将预处理步骤与Map任务耦合。这样做的正确方法是什么?
我也打算使用AWS EMR来做同样的事情。一种方法是在没有reduce任务的情况下运行单独的电子病历作业,并在映射阶段将数据上传到S3。有没有更好的方法来做到这一点,因为运行map-reduce作业而不使用reduce任务来预处理数据看起来像是一个老生常谈的解决方案。
发布于 2016-06-16 16:00:19
看起来你至少有两个选择:
InputFormat,并直接读取数据。网上有很多关于如何做到这一点的资源。根据这个专有格式的外观,您可能无论如何都需要这样做才能实现#1。你需要考虑的几件事是:
与其他格式相比,
https://stackoverflow.com/questions/37849199
复制相似问题