我想在数据级别进行合并,这样条带的数量就会减少。这是因为我每小时处理一次文件,并且每个分区会创建许多较小的ORC文件。我知道hive concatenate可以合并条带级别的文件。如果我合并,文件合并仅在条带级别发生,因为添加了许多条带。我最终得到了只有2-3行的多个条纹。我会想要有更少的条纹和更多的行。
发布于 2017-09-28 02:47:36
merge.orcfile.stripe.level=false应该可以工作,但是我没有让它在我们的集群上工作。
我必须编写一个自定义程序来读取和组合这些文件。
https://stackoverflow.com/questions/46346307
复制相似问题