首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何调度一个实时数据管道(水槽,卡夫卡,火花流)?

如何调度一个实时数据管道(水槽,卡夫卡,火花流)?
EN

Stack Overflow用户
提问于 2018-09-13 11:13:03
回答 1查看 531关注 0票数 0

我有一个批处理数据管道在Cloudera Hadoop平台上-文件正在通过水槽和火花处理到蜂巢。业务流程是通过Oozie工作流完成的。

我现在正在构建一个几乎实时的数据管道,使用Flume,Kafka,Spark流,最后进入HBase。在编制方面有两种情况:

  1. 将管道保持在24/7 -编排(调度)机制应该是什么?乌兹?
  2. 在早上8点到晚上8点之间操作管道--编排(调度)机制应该是什么?乌兹?

请描述您在实际生产实现中的经验。

EN

回答 1

Stack Overflow用户

发布于 2018-09-13 18:03:44

场景1- 24/7流水线

管道中的进程必须始终运行。调度器不是它的正确选择,因为这里没有调度进程,但是如果进程死了,应该监视和重新启动进程。作为客户端运行的水槽代理和火花流驱动程序应该通过systemd执行。Systemd将负责重新启动水槽代理或火花流驱动程序死亡。如果星火流驱动程序在集群模式下运行,则运行它时要打开监控器标志,您将不需要系统单元。

场景2-8上午8点到下午8点

如果您在客户端模式中同时拥有系统单元代理和火花流驱动程序,则可以编写两个脚本,一个用于启动这些进程,另一个用于停止这些进程。您可以使用oozie或crontab在上午8点安排启动进程脚本,并在下午8点安排停止进程脚本。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52312522

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档