举个例子,我有一个所有主要体育赛事的数据,happened.Schema如下
EventName、日期、月份、年份、城市
这些数据在HDFS中按年、日、月进行物理结构化。
现在我想基于其他列值在上面创建虚拟分区,例如。City.The数据将仅以年、日、月的结构物理存储在HDFS中,但我的元数据会跟踪虚拟分区。
可以为我做这件事吗?
发布于 2018-04-19 03:02:35
我不认为这会发生。实际上,在Hive中分区意味着为不同的分区创建不同的dir。metastore只包含表的元数据。它不会控制实际的数据。从技术上讲,当我们基于Hive表中已分区列进行查询时,查询将仅在该已分区目录上执行。因此,虚拟分区在不改变hdfs结构的情况下,实际数据将在一个目录中,因此查询必须在整个数据上执行。因此,技术上的优化根本没有发生。
https://stackoverflow.com/questions/49905177
复制相似问题