首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >亚马逊EMR与亚马逊红移

亚马逊EMR与亚马逊红移
EN

Stack Overflow用户
提问于 2019-07-24 02:56:40
回答 1查看 3.1K关注 0票数 2

对于大多数用例,可以使用Amazon对流数据或有界数据(例如来自Amazon的数据)进行星火转换,然后可以使用转换后的数据再次将数据写入S3。

在Amazon中也可以使用来自S3的不同数据加载到不同的红移表,然后使用加载到最终表的不同红移表的数据来实现转换。(现在使用红移谱,我们也可以直接从S3中选择和转换数据。)

尽管如此,我看到这些转换可以在EMR和Redshift中完成,而Redshift加载和转换只需较少的开发时间。

那么,EMR是否应该用于主要涉及流/无界数据的用例?其他的用例是EMR更可取的(我知道Spark也提供了其他核心、sql、ml库),但是仅仅为了实现转换(包括连接/还原),除了在EMR内部流之外,我没有看到一个用例,当转换也可以在Redshift中实现时。

请提供用例什么时候使用EMR转换与红移转换。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-24 06:13:10

在第一种情况下,我更喜欢将Redshift用于转换,因为:

  • 开发更容易,SQL比Spark更容易
  • 维护/监测更容易
  • 假设你可以在“非高峰期”运行的话,基础设施成本就会更低。

有时候电子病历是一个较佳的选择,在这些情况下,我会考虑:

  • 当您希望在S3上都有原始数据和转换数据时,例如“数据湖”策略
  • 需要复杂的转换。有些转换是不可能使用Redshift的,例如,当
    • 管理复杂和大型json列
    • 数据的动态旋转(可变的属性数)
    • 需要第三方图书馆

  • 数据大小太大,需要一个更大的红移集群来处理转换。

除了Redshift和EMR之外,还有其他的选择,这也是应该考虑的。例如

  • 标准python或其他脚本语言:
    • 创建动态转换sql,可以在redshift中运行。
    • 从csv到地板或类似的处理
    • 调度(例如气流)

  • 雅典娜
    • 可与s3 (例如,地板)输入和输出一起使用
    • 使用Presto语法使用SQL (因此在开发时有一些优势),在某些情况下,它比Redshift SQL更强大
    • 可以有显著的成本效益,因为没有永久性的基础设施成本是需要的,付费的使用。

还应考虑AWS批处理和AWS lambda。

票数 10
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57174597

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档