对于大多数用例,可以使用Amazon对流数据或有界数据(例如来自Amazon的数据)进行星火转换,然后可以使用转换后的数据再次将数据写入S3。
在Amazon中也可以使用来自S3的不同数据加载到不同的红移表,然后使用加载到最终表的不同红移表的数据来实现转换。(现在使用红移谱,我们也可以直接从S3中选择和转换数据。)
尽管如此,我看到这些转换可以在EMR和Redshift中完成,而Redshift加载和转换只需较少的开发时间。
那么,EMR是否应该用于主要涉及流/无界数据的用例?其他的用例是EMR更可取的(我知道Spark也提供了其他核心、sql、ml库),但是仅仅为了实现转换(包括连接/还原),除了在EMR内部流之外,我没有看到一个用例,当转换也可以在Redshift中实现时。
请提供用例什么时候使用EMR转换与红移转换。
发布于 2019-07-24 06:13:10
在第一种情况下,我更喜欢将Redshift用于转换,因为:
有时候电子病历是一个较佳的选择,在这些情况下,我会考虑:
除了Redshift和EMR之外,还有其他的选择,这也是应该考虑的。例如
还应考虑AWS批处理和AWS lambda。
https://stackoverflow.com/questions/57174597
复制相似问题