AFAIK,电子病历是高度优化的读写从/到S3 &具有RACK_LOCAL数据局部性时,从S3读取。对我来说,这意味着他们总是在相同的可用区域(AZ)。另一方面,S3没有AZs。
无论您的电子病历部署在哪个AZ上,如何将RACK_LOCAL配置到同一个S3桶中?
发布于 2019-10-27 08:10:47
RACK_LOCAL意味着S3和EMR在同一个数据中心内,而AZ是数据中心的集合。这使得理解RACK_LOCAL的可能性变得更加困难。
从下面的文档页面来看,这个地方似乎是使用EMRFS的“一致视图”实现的:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emrfs-files-tracked.html
发布于 2020-10-06 22:18:17
如下面所述,带有EMRFS的EMR+S3不维护数据局部性,不适合基于诸如SQL之类的工具进行分析处理。对于计算和数据处于同一位置的这种用例,RedShift是正确的选择。请参阅以下连结的39:00至42:00:
在https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html中也提到了这一点。请参阅每美元绩效一节。
要检查EMR如何与S3一起工作,请参阅凯文·施密特和克里斯托弗·菲利普斯的“编程弹性地图缩减”一书(第一章,亚马逊弹性MapReduce与传统Hadoop安装部分)。
https://stackoverflow.com/questions/58574665
复制相似问题