文章/答案/技术大牛

发布

社区首页 >问答首页 >亚马逊EMR与亚马逊红移

问亚马逊EMR与亚马逊红移
EN

Stack Overflow用户

提问于 2019-07-24 02:56:40

回答 1查看 3.1K关注 0票数 2

对于大多数用例，可以使用Amazon对流数据或有界数据(例如来自Amazon的数据)进行星火转换，然后可以使用转换后的数据再次将数据写入S3。

在Amazon中也可以使用来自S3的不同数据加载到不同的红移表，然后使用加载到最终表的不同红移表的数据来实现转换。(现在使用红移谱，我们也可以直接从S3中选择和转换数据。)

尽管如此，我看到这些转换可以在EMR和Redshift中完成，而Redshift加载和转换只需较少的开发时间。

那么，EMR是否应该用于主要涉及流/无界数据的用例？其他的用例是EMR更可取的(我知道Spark也提供了其他核心、sql、ml库)，但是仅仅为了实现转换(包括连接/还原)，除了在EMR内部流之外，我没有看到一个用例，当转换也可以在Redshift中实现时。

请提供用例什么时候使用EMR转换与红移转换。

amazon-emr

amazon-redshift-spectrum

amazon-web-services

amazon-redshift

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-24 06:13:10

在第一种情况下，我更喜欢将Redshift用于转换，因为：

开发更容易，SQL比Spark更容易
维护/监测更容易
假设你可以在“非高峰期”运行的话，基础设施成本就会更低。

有时候电子病历是一个较佳的选择，在这些情况下，我会考虑：

当您希望在S3上都有原始数据和转换数据时，例如“数据湖”策略
需要复杂的转换。有些转换是不可能使用Redshift的，例如，当
- 管理复杂和大型json列
- 数据的动态旋转(可变的属性数)
- 需要第三方图书馆

数据大小太大，需要一个更大的红移集群来处理转换。

除了Redshift和EMR之外，还有其他的选择，这也是应该考虑的。例如

标准python或其他脚本语言：
- 创建动态转换sql，可以在redshift中运行。
- 从csv到地板或类似的处理
- 调度(例如气流)

雅典娜
- 可与s3 (例如，地板)输入和输出一起使用
- 使用Presto语法使用SQL (因此在开发时有一些优势)，在某些情况下，它比Redshift SQL更强大
- 可以有显著的成本效益，因为没有永久性的基础设施成本是需要的，付费的使用。

还应考虑AWS批处理和AWS lambda。

票数 10

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57174597

复制

相似问题

问亚马逊EMR与亚马逊红移
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问亚马逊EMR与亚马逊红移EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问亚马逊EMR与亚马逊红移
EN