从提供的数据处理文档中可以看出:
若要帮助避免对不活动群集收取Google费用,请在创建群集时使用Dataproc的群集计划删除功能。此功能提供了删除群集的选项:
然而,我要寻找的是一些允许我自动安排集群活动的东西,例如,我希望集群只能在工作日和工作时间内活动。
这样,我就可以避免额外的成本,而不必手动停止(或者更确切地说,只是删除DataProc文档中的内容),并且每天重新创建集群。
为此,在Compute中,我能够为集群的VM创建一个计划来阻止它们。
尽管通过使用此方法,VM通过此计划停止,但我仍然看到DataProc中的集群“正在运行”。
我还在承受成本吗?如果是,在DataProc中是否有类似的时间表可供选择?
作为一个额外的问题,是否可以对具有自动标度策略的集群应用计划?
发布于 2021-09-07 17:20:32
满足您的需求的最佳方法是将云作曲家与Dataproc启动和停止API结合使用。
如果停止底层VM,Dataproc也将停止对已停止的VM收费,因为Dataproc计费是基于核心时间的。但这并不是节省成本的最安全和健壮的方法,我相信Dataproc stop有一定的逻辑来确保停止是安全的。与直接停止VM相比,我们肯定更喜欢Dataproc停止API。但请注意,无论哪种方式,您仍然需要为已停止的VM支付持久磁盘。因此,考虑将您的输入和输出数据保存在GCS中,在需要进行数据处理时创建集群,然后删除。重新创建集群还将为您提供重新启动集群所不提供的最新更新和错误修复。
自动标度不会删除主节点,作为一个最佳做法,您的策略应该避免缩放主工作人员,而只缩放辅助工作人员,因为主工作人员需要保留HDFS数据(如果启用了EFM,则需要对数据进行洗牌)。因此,如果您想完全停止集群以避免成本,自动标度并不是一个好的选择。
https://stackoverflow.com/questions/69089166
复制相似问题