文章详情:大数据技术与架构、暴走大数据 概述 全局索引是Phoenix的重要特性,合理的使用二级索引能降低查询延时,让集群资源得以充分利用。本文将讲述如何高效的设计和使用索引。 全局索引说明 全局索引的根本是通过单独的HBase表来存储数据表的索引数据。我们通过如下示例看索引数据和主表数据的关系。 CREATE INDEX B_IDX ON DATA_TABLE(B)INCLUDE(C);-- 插入数据UPSERT INTO DATA_TABLE VALUES('A','B',1,2); 当写入数据到主表时 全局索引设计 我们继续使用DATA_TABLE作为示例表,创建如下组合索引。之前我们已经提到索引表中的Row key是字典序存储的,什么样的查询适合这样的索引结构呢? 使用了ROW_TIMESTAMP特性后不能使用全局索引 对索引表适当是的使用加盐特性能提升查询写入性能,避免热点。
OceanBase 的索引有局部索引和全局索引。局部索引和全局索引的索引区别在哪里?下面通过实战例子演示如何给 OceanBase 做优化。阅读时注意以下几个优化关键参考指标。 is_global_index:表示是否已经激活全局索引。 physical_range_rows:表示读取的物理范围行,数值越小越好。 name ,phone,address) values (i,'yang',phone+i,'address'); set i=i+1; end while; end // delimiter ; 2索引使用场景 select phone ,name from user1 where phone = 1592014286; 全局索引按照 phone,name 也可以消来回表。 这里内部的逻辑,局部索引要完成跨域,必须要与分区键绑定。 全局索引也可以实现 LOCAL 的场景,见场景六。笔者后续会做 OceanBase 的分布式环境。
主键选择 对主键来说,要保证在所有分片中都唯一,它本质上就是一个全局唯一的索引。如果用大部分同学喜欢的自增作为主键,就会发现存在很大的问题。 AND o_orderkey = 1 这个例子是将一条 SQL 语句拆分成 2 条 SQL 语句,但是拆分后的 2 条 SQL 都可以通过分片键进行查询,这样能保证只需要在单个分片中完成查询操作。 不论有多少个分片,也只需要查询 2个分片的信息,这样 SQL 的查询性能可以得到极大的提升。 所以,在分布式数据库中,唯一索引一样要通过类似主键的 UUID 的机制实现,用全局唯一去替代局部唯一,但实际上,即便是单机的 MySQL 数据库架构,我们也推荐使用全局唯一的设计。 UUID 的全局唯一设计,避免局部索引导致的唯一问题; 分布式数据库唯一索引若不是分片键,则可以在设计时保存分片信息,这样查询直接路由到一个分片即可; 对于分布式数据库中的全局表,可以采用冗余机制,在每个分片上进行保存
此时,看到这个全局索引是UNUSABLE的状态,和我们的设想是相同的,即删除分区,会导致全局索引的失效, SQL> select table_name, index_name, status 2 ,我们从问题入手,为什么分区删除,会导致全局索引的失效? 我们换种思路,之所以全局索引的状态失效,根本问题就是索引对应的分区中数据被删除了,那么,如果不删除分区中的数据,索引结构无需任何调整,他的状态是不是就是正常的? 此时,再看全局索引,他的状态正常,VALID,并未因为分区删除的操作,导致其失效, SQL> select table_name, index_name, status 2 from user_indexes 原因已经说了,因为分区删除时,不存在任何数据需要删除,意味着无需调整索引结构,所以全局索引的状态,就无需置为失效,这个算是对待分区删除避免全局索引失效的一种另类解决方案了。
表可以按range,hash,list分区,表分区后,其上的索引和普通表上的索引有所不同,Oracle对于分区表上的索引分为2类,即局部索引和全局索引,下面分别对这2种索引的特点和局限性做个总结。 局部索引local index 1. 局部索引一定是分区索引,分区键等同于表的分区键,分区数等同于表的分区说,一句话,局部索引的分区机制和表的分区机制一样。 2. 位图索引只能为局部分区索引。 8. 局部索引多应用于数据仓库环境中。 全局索引global index 1. 全局索引的分区键和分区数和表的分区键和分区数可能都不相同,表和全局索引的分区机制不一样。 2. 全局索引可以分区,也可以是不分区索引,全局索引必须是前缀索引,即全局索引的索引列必须是以索引分区键作为其前几列。 3. 全局分区索引的索引条目可能指向若干个分区,因此,对于全局分区索引,即使只动,截断一个分区中的数据,都需要rebulid若干个分区甚至是整个索引。 4. 全局索引多应用于oltp系统中。 5.
二、核心概念:局部索引vs全局索引对比项局部索引(LocalIndex)全局索引(GlobalIndex)存储方式每个分区独立维护自己的索引树整个表共用一个索引树分区裁剪✅支持(扫描对应分区索引)❌不支持 代码解释--创建按年份Range分区的订单表CREATETABLEorders(idINTNOTNULL,order_dateDATENOTNULL,user_idINT,amountDECIMAL(10,2) 1:北京,2:上海)nameVARCHAR(50))PARTITIONBYLIST(region)(PARTITIONp_beijingVALUESIN(1),PARTITIONp_shanghaiVALUESIN (2));--创建全局唯一索引(需谨慎)CREATEUNIQUEINDEXidx_idONusers(id)GLOBAL;注意:全局索引会大幅增加维护成本,使用前需评估业务场景的读写比例和性能需求。 五、避坑指南:分区表索引的常见陷阱陷阱①:误用全局索引导致性能下降不要为了“方便”而滥用全局索引,除非必须保证全局唯一性。优先使用局部索引。
No 2 版本变更 2dsphere索引版本 版本 3 MongoDB 3.2 引入了 2dsphere索引的版本3。 对于包含2dsphere索引键以及其他类型键的复合索引,该索引是否引用文档只取决于2dsphere索引字段。 MongoDB的早期版本仅支持2dsphere (Version 1)索引。 这使得geoNear在具有多个2dsphere索引或多个2d索引的文档中也能被使用: 如果您的集合具有多个2dsphere索引或多个2d索引,则必须使用key选项来指定使用哪个索引字段路径。 如果未指定key,您将无法使用多个2dsphere索引或多个2d索引。因为没有指定key时,在多个2d索引或2dsphere索引中选择索引将变得无法明确。 敲黑板!!! 如果您不指定key,您将最多只能拥有一个2dsphere索引或一个2dsphere索引,MongoDB首先寻找2d索引。如果不存在2d索引,则MongoDB会寻找2dsphere索引。
技术社群的这篇文章《SQL 优化 | Insert...Select 全局非分区索引慢的分析与解决》就给我们带来了关于OceanBase中分区索引相关的案例,虽然是OB,但其中的原理,各种数据库都可以借鉴 .... 3.2 为啥这里写全局唯一索引慢? 结论 这个全局唯一索引是 OMS 带来的,源端 Oracle 侧为主键时,因为 OceanBase 强制要求(分区表中主键必须包含分区列),所以 OMS 将其改造为 原主键字段,分区键 的全局唯一非分区索引 全局唯一非分区索引 全局唯一分区索引 全局普通非分区索引 全局普通分区索引 遇到 INDEX INSERT 全局非分区索引的情况,大数据量跑批场景性能可能不是很客观,对此最佳优化措施就是改为全局分区索引 本例中对 INSERT 目标表 ACA6 进行改造,将表中全局唯一非分区索引(UDX_ACA6_AAZ219)改造为全局唯一分区索引,充分利用到分区并发的优势,改造后该 INSERT ...
2. 背景 数据集类型 Hudi存储抽象主要有两部分组成:1) 实际存储的数据;2) 用于定位记录位置(fileId)的索引,如果没有这个信息,Hudi不能处理upserts。 每个桶对外暴露两个API,getRecordLocation(JavaRDD<RecordKeys>) 和insertRecords(JavaPairRDD<RecordKey, Tuple2<PatitionPath , FileId>>) 3.2 存储 使用HFile(link1, link2) 进行存储,因为HFile有非常好的随机读取性能,这里有关于HFile的基准测试,简要概括如下,如果HFile包含100W 3.8.2 选项2-多个hash查找和桶组 第一个hash可索引到1 ~ 1000的桶(称为一个桶组),一旦达到桶组的80%时,需要选取一个新的hash,新的hash可索引到1001 ~ 2000,所以在索引查找时 基于上面结构也很容易读取所有在给定提交时间后的索引,在两个时间间隔内提交的索引等。 5. 总结 记录级别全局索引将极大提升Hudi的写入性能,有望在0.6.0版本释出。
—— [ 百度百科 ] 数据库索引和Lucene检索对比 比较项 Lucene检索 数据库检索 数据检索 从Lucene的索引文件中检出 由数据库索引检索记录 索引结构 Document(文档) 经过分词处理后,变成[Tom][facorite][fruit][apple] (2)再将词元传给语言处理组件(Linguistic Processor) 英语的单词经过语言处理组件处理后,字母变为小写 2 fruit 1[3] 3 [apple| 1[4] | 4 | Lucene简单实例 创建一个Maven项目,在pom.xml加入Lucene所需的jar <dependencies> } } catch (IOException e) { e.printStackTrace(); } } } 全局搜索索引 java.io.IOException; import java.io.StringReader; import java.nio.file.Paths; /** *
* Lucene全局搜索服务类
1 $ dotnet cake --help 2 3 Usage: Cake.exe [script] [--verbosity=value] 4 [--showdescription additional information about Cake execution. 21 --help Displays usage information. 2. 2.1 cake.ps1 1 [string]$SCRIPT = '0-build/build.cake' 2 [string]$CAKE_VERSION = '0.33.0' 3 \cake.ps1 --showtree 2 Tool 'cake.tool' is already installed. 3 dotnet cake 0-build/build.cake -verbosity /bin/sh 2 3 SCRIPT='0-build/build.cake' 4 CAKE_VERSION='0.33.0' 5 6 # nuget server config 7 export
全局索引区别于局部索引,与主表数据结构保持一对多、多对多的关系,全局索引主要应用于分区表。 对于分区表来讲,一个非分区全局索引对应主表的多个分区;一个分区全局索引也对应主表的多个分区,同时主表每个分区也对应多个全局索引的索引分区。 不带分区键的查询有两个考虑方向,主要在于能否克服全局索引的缺点:全局索引势必会带来查询的分布式执行! (1)表的并发写不大,可以考虑用全局索引。 (2)表的并发写很大,用全局索引与否就有待商榷, 可以根据当前的业务模型做个压力测试,取一个折中点。 比如以下语句, 全局索引idx_r2_global基于非分区字段r2,执行计划如下:算子1需要去底层各个节点分布式扫描(DISTRIBUTED TABLE SCAN)。
1、全局配置 修改application.properties server.port=9999 server.servlet.context-path=/springboot server.port http://ip:port/就可以访问,设置server.servlet.context-path后,访问路径更改为http://ip:port/server.servlet.context-path 2、
pyecharts-2-全局配置项设置 本文中介绍的如何在pyecharts中配置全局组件,在后续的作图中会用到这些全局配置项。 全局配置 全局配置项可通过 set_global_options 方法设置 ? True, # 提示语 title: str = "保存为图片", # 保存图片的分辨率比例,默认跟容器相同大小,如果需要保存更高分辨率的,可以设置为大于 1 的值,例如 2。 相对于容器左侧 10px, 上侧 10 px ===> position: [10, 10] # 相对位置,放置在容器正中间 ===> position: ['50%', '50%'] # 2、 可以是字符串,表示两端使用同样的箭头;或者长度为 2 的字符串数组,分别表示两端的箭头。 # 默认不显示箭头,即 'none'。
—— [ 百度百科 ] 数据库索引和Lucene检索对比 比较项Lucene检索数据库检索数据检索从Lucene的索引文件中检出由数据库索引检索记录索引结构Document(文档)Record(记录) 经过分词处理后,变成[Tom][facorite][fruit][apple] (2)再将词元传给语言处理组件(Linguistic Processor) 英语的单词经过语言处理组件处理后,字母变为小写 2fruit1[3]3[apple1[4]4 Lucene简单实例 创建一个Maven项目,在pom.xml加入Lucene所需的jar <dependencies> <dependency } } catch (IOException e) { e.printStackTrace(); } } } 全局搜索索引 java.io.IOException; import java.io.StringReader; import java.nio.file.Paths; /** *
* Lucene全局搜索服务类
今天看到《删除分区如何不让全局索引失效?》这篇文章有朋友提了个问题, ? 官方文档,已经明确指出,除非使用update indexes,否则用truncate分区表,就会导致全局索引失效,必须重建, Unless you specify UPDATE INDEXES, any 扩展一下,对堆表来说,alter table不带update indexes,则涉及的局部索引会失效,涉及的全局索引会标记为失效,需要重建,对索引组织表,局部索引的效果和堆表相同,但是全局索引仍可用, 分区表执行drop、truncate、exchange这些DDL操作,不再是快速操作,他的时间就需要衡量了,因为会导致全局索引的失效,需要重建索引, The DROP, TRUNCATE, and EXCHANGE 创建全局索引, SQL> create index idx_01 on interval_sale(cust_id); Index created.
前言: 在第九章中,已经介绍了如何使用索引,当一个索引创建时,以B-Tree格式存放数据,拥有根节点、中间节点、叶子节点。 比如有一个聚集索引在SSN上,当插入一个新的SSN数时。 SQLServer会尝试把数据插入到合适的数据页,假设SSN从2开始,此时在最后的数据页中找到这个页面是以SSN开始的,SQLServer将会仅仅在这个页中插入新行。 填充因子仅仅在创建或重建一个索引时有影响,在日常的DML操作中,页依然会100%填满。 , type_desc , fill_factor FROM sys.indexes WHERE type_desc <> 'HEAP' 2、
若表中索引过多,会影响INSERT及UPDATE性能,简单说就是会影响数据写入性能。因为更新数据的同时,也要同时更新索引。 最实际的好处当然是查询速度快,性能好。 ) … 建索引参考的原则 : 一个表有3列 ,a,b,c 说出3种索引,能够在查询的时候用到 a,b,c,bc,ac,abc . abc (a,bc,abc) bc (c,bc) ca (c) 用 查询 bc 的时候用不到abc和ac 索引。 使用联合索引应该注意: MySQL使用联合索引只能使用左侧的部分,例如INDEX(a,b,c),当条件为a或a,b或a,b,c时都可以使用索引,但是当条件为b,c时将不会使用索引。 离散度更高的索引应该放在联合索引的前面,因为离散度高索引的可选择性高。考虑一种极端的情况,数据表中有100条记录,若INDEX(a,b)中a只有两种情况,而b有100种情况。
什么是索引? 索引是存储引擎用于快速找到记录数据行的一种分散存储的数据结构。 索引对于良好的性能非常关键,尤其是当表中的数据量越来越大时,索引对性能的影响愈发重要。 哈希索引的应用场景 根据本人的理解,这种直接通过哈希索引的存储引擎,因为索引自身只需要存储对应的哈希值,所以索引的结构十分紧凑,这会让哈希索引查找的速度非常快 哈希索引的一些限制 哈希索引只包含哈希值和行指针 哈希索引数据并不是按照索引列的值顺序存储的,所以也就无法用于排序 哈希索引也不支持部分索引列匹配查找,因为哈希索引始终是使用索引的全部列值内容来计算哈希值的。 (1)由于是m分叉的,高度能够大大降低; (2)每个节点可以存储j个记录,如果将节点大小设置为页大小,例如4K,能够充分的利用预读的特性,极大减少磁盘IO; 注意:高度降低的原因在于: 在利用了局部性原理前提下 ,我们把一个节点的大小设为一页,一页4K,假设一个KEY有8byte,一个节点可以存储500个KEY,即j=500 m叉树,大概m/2<= j <=m,即可以差不多是1000叉树 一层树:1个节点,1*