我正在寻找一个工作流工具来运行复杂的地图减少作业。我已经想到了Oozie,但也想探索一下级联。是否有使用级联API链接现有M/R作业的示例代码或示例?另外,你能提供Oozie和Cascading的比较吗?
发布于 2013-01-03 14:06:16
级联和Oozie不在同一类别中。
Oozie是一个工作流调度器。
级联是一种用于创建工作流的API。它对调度器是不可知的,也就是说,它应该与您使用的任何调度器系统一起运行。
可能会有一些混淆,因为Oozie文档提到了一个"DAG",并且两者都运行在Hadoop之上。
此外,级联在检查点支持中有“数据可用性”的概念,这在Oozie中得到了支持,尽管有所不同。
发布于 2013-10-31 15:35:50
就我个人而言,我在某种程度上尝试了这两种方法,我发现级联的有趣之处在于
1)简明且富有表现力的简单关键字,如流、水龙头、管道等,
2)令人惊叹的基于TDD的本地开发和研究方法
3)漂亮的规划器视图(.dot文件),一旦项目增长,将是有用的,所以维护很容易。
4)使用groovy、scala、cloujre的基于DSL的方法。因此,不必担心学习任何新语言,或者更确切地说,hadoop。
5)简单的云部署(例如amazon支持原始jar部署)。
6)你可以调用任何像现有的猪或者hive或者其他纯MR jar这样的东西,只要它们暴露了java api。
7) ML和NLP相关的作品令人惊叹。
https://stackoverflow.com/questions/11317083
复制相似问题