问电子病历中的数据预处理
EN

Stack Overflow用户

提问于 2016-06-16 11:04:04

回答 1查看 136关注 0票数 0

我想要处理10PB的数据。输入数据是某种专有格式(存储在CSV中)，第一个预处理步骤是将这些专有数据转换为CSV并将其移回S3。由于一些限制，我不能将预处理步骤与Map任务耦合。这样做的正确方法是什么？

我也打算使用AWS EMR来做同样的事情。一种方法是在没有reduce任务的情况下运行单独的电子病历作业，并在映射阶段将数据上传到S3。有没有更好的方法来做到这一点，因为运行map-reduce作业而不使用reduce任务来预处理数据看起来像是一个老生常谈的解决方案。

发布于 2016-06-16 16:00:19

看起来你至少有两个选择：

将数据转换为您认为更易于使用的格式。您可能希望查看诸如Parquet或Avro之类的格式。使用地图任务是一种合适的方法，在这种情况下，如果你想控制产生的文件数量，你只会使用reducer，即将许多小文件组合成一个更大的文件。
创建一个自定义的InputFormat，并直接读取数据。网上有很多关于如何做到这一点的资源。根据这个专有格式的外观，您可能无论如何都需要这样做才能实现#1。

你需要考虑的几件事是：

与其他格式相比，

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37849199

复制

相似问题

问电子病历中的数据预处理EN