我想了解像Hadoop MapReduce作业/火花作业/Hive脚本/Pig脚本这样的ETL作业通常是如何部署在on premises生产/开发环境中的。
它们是否总是使用像Apache气流或Apache这样的调度器来部署和运行?
我假设这些作业几乎从不独立运行,而且总是使用调度程序运行,即使它是一个简单的调度bash脚本。这个准确吗?
如果我也能得到一些关于这个话题的阅读材料,那也是非常有帮助的。
发布于 2021-10-29 08:10:11
这完全取决于环境,您会发现大多数环境都使用这两者的组合。生产中的任何事情都可能被调度- Hadoop作业与任何其他类型的工作没有什么不同,人们希望他们的生产环境是自动化和可靠的。
话虽如此,我还是在一些公司工作过,在这些公司里,有人被雇来从一开始到最后手动管理一条关键的管道。
开发人员仍然需要在开发过程中轻松和手动地运行作业,因此此类作业通常是独立运行的。
顺便说一句,我不确定现在是否还有很多人在部署新的MapReduce、Pig和Oozie工作。自2019年以来,Oozie就没有发布过任何版本,自2017年以来就没有发布过任何版本,而且几乎没有理由运行MapReduce而不是Spark。
https://stackoverflow.com/questions/69765352
复制相似问题