文章/答案/技术大牛

发布

社区首页 >问答首页 >运行Hadoop MapReduce作业/Hive脚本/Pig脚本等的最佳实践

问运行Hadoop MapReduce作业/Hive脚本/Pig脚本等的最佳实践
EN

Stack Overflow用户

提问于 2021-10-29 07:49:19

回答 1查看 141关注 0票数 1

我想了解像Hadoop MapReduce作业/火花作业/Hive脚本/Pig脚本这样的ETL作业通常是如何部署在on premises生产/开发环境中的。

它们是否总是使用像Apache气流或Apache这样的调度器来部署和运行？

我假设这些作业几乎从不独立运行，而且总是使用调度程序运行，即使它是一个简单的调度bash脚本。这个准确吗？

如果我也能得到一些关于这个话题的阅读材料，那也是非常有帮助的。

apache-spark

hadoop

hive

apache-pig

回答 1

Stack Overflow用户

发布于 2021-10-29 08:10:11

这完全取决于环境，您会发现大多数环境都使用这两者的组合。生产中的任何事情都可能被调度- Hadoop作业与任何其他类型的工作没有什么不同，人们希望他们的生产环境是自动化和可靠的。

话虽如此，我还是在一些公司工作过，在这些公司里，有人被雇来从一开始到最后手动管理一条关键的管道。

开发人员仍然需要在开发过程中轻松和手动地运行作业，因此此类作业通常是独立运行的。

顺便说一句，我不确定现在是否还有很多人在部署新的MapReduce、Pig和Oozie工作。自2019年以来，Oozie就没有发布过任何版本，自2017年以来就没有发布过任何版本，而且几乎没有理由运行MapReduce而不是Spark。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69765352

复制

相似问题

问运行Hadoop MapReduce作业/Hive脚本/Pig脚本等的最佳实践
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问运行Hadoop MapReduce作业/Hive脚本/Pig脚本等的最佳实践EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问运行Hadoop MapReduce作业/Hive脚本/Pig脚本等的最佳实践
EN