在阅读了有关查询优化技术的文章之后,我了解了以下技术。
1. Indexing - bitmap and BTree
2. Partitioning
3. Bucketing我理解了分区和存储之间的区别,以及何时使用它们,但我仍然不知道索引实际上是如何工作的。索引的元数据存储在哪里?存储它的是namenode吗?也就是说,实际上在创建分区或桶时,我们可以在hdfs中看到多个目录,这说明了查询性能优化,但是如何可视化索引呢?它们真的在现实生活中使用吗,尽管在图片中存在着分割和冲突?
请帮助我进行上述查询,是否有hadoop和hive开发人员社区的专用页面?
发布于 2020-04-20 07:33:43
但在ORC中有一些重量较轻的指标(其实并不是经典的指标,而是min、max和Bloom过滤器,它有助于修剪条纹)。如果在插入期间对数据进行排序(distribute+sort),则ORC索引和布卢姆筛选器是有效的。
考虑使用内置索引和Bloom过滤器的ORC,在表中保留较少的文件,以避免元数据超载,并避免映射器复制数千个文件。阅读这个蜂巢面试问题中的分区和这个蜂巢中的排序表
有用的链接。
正式文件:LanguageManual
Cloudera社区:https://community.cloudera.com/
https://stackoverflow.com/questions/61300659
复制相似问题