我在一个包含超过28K分区的hive表上运行MSCK REPAIR TABLE table name,我们将每10分钟收到一个分区。
当我们在这个表上每10分钟运行一次MSCK REPAIR TABLE时,它会花费大量的时间
有人能建议一下为什么要花更多的时间吗?(即超过5-10分钟)
提前谢谢。
配置单元版本: 1.1.0
发布于 2017-06-17 15:56:21
这是一种非常糟糕的做法。
无论目录是否已经映射到分区,MSCK REPAIR仍然需要获取所有目录的列表以及所有分区的列表,并对它们进行比较。
相反,您应该在每次添加目录时使用alter table ... add partition ...来添加分区。
https://stackoverflow.com/questions/44599976
复制相似问题