我有一个带有步骤数的EMR集群。我试图分析每周收到的日志数据。我想每周对附加的数据运行相同的步骤。
长期运行的集群
data source加载日志文件(如果后续运行,则从日志文件加载或复制记录)如何在集群上每周运行相同的步骤?
还是每周我都需要建立新的集群?
如果我能在这样一个处理海量数据的场景中获得有关数据源类型的指导,那就太好了。
发布于 2018-09-26 04:19:39
可以通过调用添加-步骤- AWS CLI命令引用向集群提交新步骤。
因此,您需要一个调用集群来添加步骤的cron作业。您可以在主节点上创建cron作业,或者有无数Hadoop工具可以调度和编排作业。
您当然不需要一个新的节点,因为您已经有一个集群正在运行。
https://stackoverflow.com/questions/52509600
复制相似问题