我有几个任务,我准备的AWS EMR,不共享数据,我想使用相同的EMR来执行一个接一个。是否有方法将正在运行的EMR清除回其初始状态(删除单元表、清理所有HDFS文件等)避免数据冲突吗?
我想重用EMR有几个原因:
发布于 2016-06-19 12:14:02
我们没有找到一个“快速而干净”的API来实现这种行为。相反,我们整合了一个简单的工作方法,以保证我们可以清理所有的数据。
因此,每次任务启动时,它首先删除这个特定的DB (如果存在)并重新创建它,然后递归地删除HDFS中特定位置下的所有数据。
https://stackoverflow.com/questions/31411380
复制相似问题