首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Redshift vs Spark、Oozie Workflow Scheduler和Redshift分析的大数据分析

使用Redshift vs Spark、Oozie Workflow Scheduler和Redshift分析的大数据分析
EN

Stack Overflow用户
提问于 2015-02-16 07:25:17
回答 1查看 1.8K关注 0票数 0

我们希望对存储在Amazon中的数据进行大数据分析(目前为to级,但将随着时间的推移而增长)。

目前,我们的所有分析似乎都可以通过Redshift查询来完成(因此,可能不需要在我们的末尾进行分布式处理),但我们不确定将来是否还会这样。

为了建立一个能够满足我们未来需求的通用系统,我们希望使用Apache进行数据分析。我知道可以从HDFS、HBase和S3将数据读入Spark,但是是否支持直接从Redshift读取数据?如果没有,我们可以将数据传输到S3中,然后用Spark读取数据。

,我的问题是,我们是应该直接通过Redshift的查询执行数据分析,还是应该使用上面的方法并通过ApacheSpark进行分析(这里的问题是数据局部性优化可能无法实现)?

如果我们直接通过红移查询进行分析,任何人是否可以建议一个好的工作流计划程序来编写我们的分析作业。我们的要求是能够以DAG的形式执行作业(只有在Job2成功的情况下才能执行Job1 ),并且能够通过建议的工作流引擎来调度我们的工作流。

Oozie似乎很适合我们的需求,但事实证明,没有Hadoop,Oozie是无法使用的。在我们的机器上设置Hadoop,然后使用Oozie通过Redshift查询来调度我们的数据分析作业吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-25 16:03:13

您不能直接访问存储在Redshift节点上的数据(每个节点通过Spark),只能通过作为一个整体提交的SQL查询访问。

我的建议是尽可能长时间地使用Redshift,并且只在您绝对需要的时候使用Spark/Hadoop的复杂性。

如果将来您迁移到Hadoop,那么级联语言可以让您选择运行现有的Redshift分析工具。

关于工作流,Oozie并不适合Redshift。我建议您看看Azkaban (真DAG)或Luigi (使用Python )。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28536411

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档