首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >电子病历中的数据预处理

电子病历中的数据预处理
EN

Stack Overflow用户
提问于 2016-06-16 11:04:04
回答 1查看 136关注 0票数 0

我想要处理10PB的数据。输入数据是某种专有格式(存储在CSV中),第一个预处理步骤是将这些专有数据转换为CSV并将其移回S3。由于一些限制,我不能将预处理步骤与Map任务耦合。这样做的正确方法是什么?

我也打算使用AWS EMR来做同样的事情。一种方法是在没有reduce任务的情况下运行单独的电子病历作业,并在映射阶段将数据上传到S3。有没有更好的方法来做到这一点,因为运行map-reduce作业而不使用reduce任务来预处理数据看起来像是一个老生常谈的解决方案。

EN

回答 1

Stack Overflow用户

发布于 2016-06-16 16:00:19

看起来你至少有两个选择:

  1. 将数据转换为您认为更易于使用的格式。您可能希望查看诸如ParquetAvro之类的格式。使用地图任务是一种合适的方法,在这种情况下,如果你想控制产生的文件数量,你只会使用reducer,即将许多小文件组合成一个更大的文件。
  2. 创建一个自定义的InputFormat,并直接读取数据。网上有很多关于如何做到这一点的资源。根据这个专有格式的外观,您可能无论如何都需要这样做才能实现#1。

你需要考虑的几件事是:

与其他格式相比,

  1. 专有格式的空间效率是否更高?
  2. 该格式使用起来有多简单,将其转换为CSV会简化您的处理作业吗?
  3. 是不断更新或添加的原始数据,您是否需要继续将其转换为其他格式或更新已转换的数据?
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37849199

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档