首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >EMR + S3:如何实现RACK_LOCAL

EMR + S3:如何实现RACK_LOCAL
EN

Stack Overflow用户
提问于 2019-10-26 20:58:01
回答 2查看 242关注 0票数 1

AFAIK,电子病历是高度优化的读写从/到S3 &具有RACK_LOCAL数据局部性时,从S3读取。对我来说,这意味着他们总是在相同的可用区域(AZ)。另一方面,S3没有AZs。

无论您的电子病历部署在哪个AZ上,如何将RACK_LOCAL配置到同一个S3桶中?

EN

回答 2

Stack Overflow用户

发布于 2019-10-27 08:10:47

RACK_LOCAL意味着S3和EMR在同一个数据中心内,而AZ是数据中心的集合。这使得理解RACK_LOCAL的可能性变得更加困难。

从下面的文档页面来看,这个地方似乎是使用EMRFS的“一致视图”实现的:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emrfs-files-tracked.html

可能重复:S3 and EMR data locality

票数 1
EN

Stack Overflow用户

发布于 2020-10-06 22:18:17

如下面所述,带有EMRFS的EMR+S3不维护数据局部性,不适合基于诸如SQL之类的工具进行分析处理。对于计算和数据处于同一位置的这种用例,RedShift是正确的选择。请参阅以下连结的39:00至42:00:

https://youtu.be/08G9NfDETVE

https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html中也提到了这一点。请参阅每美元绩效一节。

要检查EMR如何与S3一起工作,请参阅凯文·施密特和克里斯托弗·菲利普斯的“编程弹性地图缩减”一书(第一章,亚马逊弹性MapReduce与传统Hadoop安装部分)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58574665

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档